Công nghệ Light Detection and Ranging (LiDAR) đã thay đổi cách máy móc nhận biết và tương tác với môi trường xung quanh. Bằng cách phát ra các xung laser và đo thời gian phản hồi, hệ thống LiDAR tạo ra các biểu diễn 3D chi tiết của môi trường — được gọi là đám mây điểm (point clouds). Những đám mây điểm này đã trở thành công cụ không thể thiếu trong các lĩnh vực như lái xe tự hành, robot, bản đồ hàng không và phát hiện vật thể theo thời gian thực.
Khi các hệ thống học máy và trí tuệ nhân tạo (AI) ngày càng phụ thuộc vào khả năng nhận thức 3D, chất lượng dữ liệu huấn luyện trở nên vô cùng quan trọng. Việc gán nhãn chính xác dữ liệu LiDAR không chỉ hữu ích — mà còn thiết yếu. Các mô hình học máy cho phát hiện vật thể, hiểu cảnh quan và lập kế hoạch đường đi đều dựa vào độ chính xác của các nhãn này. Tuy nhiên, khác với hình ảnh 2D, dữ liệu LiDAR mang đến những thách thức riêng biệt và phức tạp. Việc gán nhãn cho hàng triệu điểm thưa thớt và không đồng đều trong mỗi khung hình là một công việc không hề đơn giản.
Bài viết này sẽ phân tích những thách thức chính trong gán nhãn dữ liệu LiDAR và giới thiệu những đổi mới cùng giải pháp đang được phát triển để giải quyết chúng.
Độ phức tạp của dữ liệu LiDAR
Dữ liệu LiDAR có cấu trúc khác biệt so với hình ảnh hoặc video. Nó tạo ra đám mây điểm (point clouds) — tập hợp các điểm dữ liệu trong hệ tọa độ ba chiều, thường bao gồm hàng triệu điểm riêng lẻ trong mỗi khung hình. Các điểm này ghi lại thông tin hình học và không gian về bề mặt, vật thể và cấu trúc trong cảnh.
Những thách thức chính liên quan đến độ phức tạp:
- Độ phân giải cao: Các hệ thống LiDAR hiện đại tạo ra những bản quét chi tiết, sinh ra hàng triệu điểm mỗi khung hình. Điều này mang lại giá trị về độ chính xác nhưng cũng làm tăng đáng kể thời gian xử lý và độ phức tạp khi gán nhãn.
- Độ thưa và mật độ: Đám mây điểm thường thưa, đặc biệt ở khoảng cách xa. Tuy nhiên, trong môi trường đô thị, chúng có thể rất dày đặc — ví dụ ở các ngã tư hoặc chợ — khiến việc phân đoạn khó khăn hơn.
- Môi trường động: Các cảnh hiếm khi tĩnh. Xe cộ, con người, động vật và các hình dạng vật thể thay đổi đòi hỏi một phương pháp gán nhãn linh hoạt.
- Độ cao và sự che khuất: Vật thể xuất hiện ở nhiều độ cao khác nhau và có thể che khuất lẫn nhau, khiến việc gán nhãn dựa trên ngữ cảnh trở nên rất quan trọng.
Khối lượng dữ liệu khổng lồ cùng sự đa dạng của nó đã đặt ra một lớp khó khăn cơ bản ngay từ trước khi quá trình gán nhãn bắt đầu.
Thách thức trong quá trình gán nhãn dữ liệu
Việc gán nhãn dữ liệu LiDAR không đơn giản như vẽ hộp hoặc đa giác trên hình ảnh 2D. Do đặc thù 3D, mỗi nhãn cần phải xét đến độ sâu, hướng và tỷ lệ. Điều này khiến quá trình gán nhãn trở nên tốn thời gian, dễ xảy ra thiếu nhất quán và đòi hỏi nhiều ở chuyên môn của người gán nhãn.
Gán nhãn đám mây điểm
Trong hình ảnh 2D, mỗi điểm ảnh (pixel) đều có hàng xóm xác định. Cụ thể, mỗi pixel có 8 điểm ảnh lân cận có quan hệ không gian chặt chẽ. Nhưng trong không gian 3D, mỗi điểm tồn tại độc lập, trừ khi được suy luận dựa trên ngữ cảnh. Điều này có nghĩa là việc xác định các điểm thuộc về một đối tượng nào đó không hề đơn giản, và yêu cầu góc nhìn thích hợp cùng kinh nghiệm làm việc với đám mây điểm.
Những khó khăn chính:
- Nhận thức ngữ cảnh (Context Awareness): Người gán nhãn phải xác định từng điểm dựa trên hình học 3D và mối quan hệ của nó với toàn cảnh xung quanh.
- Vật cản & Tầm nhìn bị che khuất: Tương tự hình ảnh 2D, các đối tượng trong đám mây điểm 3D có thể bị che bởi vật khác. Ví dụ: ô tô bị cây che khuất một phần, hoặc người đi bộ đi phía sau biển báo, tạo ra sự mơ hồ và khó khăn trong việc xác định đối tượng cũng như kích thước của chúng.
- Khu vực thưa điểm: Mật độ điểm trong đám mây giảm nhanh theo khoảng cách từ cảm biến LiDAR. Ở những vùng xa, điểm LiDAR phân bố thưa thớt, khó để xác định ranh giới đối tượng, dễ dẫn đến gán nhãn sai.
- Khu vực đông đúc: Trong các cảnh có mật độ đối tượng cao, việc tách biệt những vật thể đặt gần nhau trở thành một công việc tỉ mỉ, đòi hỏi mức độ chi tiết rất cao.

Gán nhãn hình hộp (Cuboid annotation)
Hình hộp (cuboid) – hay còn gọi là hộp giới hạn 3D – được sử dụng để xác định các đối tượng như xe hơi, con người, xe đạp… trong không gian ba chiều. Việc gán nhãn cuboid phức tạp hơn rất nhiều so với hộp giới hạn 2D, do các nguyên nhân sau:
- Độ phức tạp 3D: Một hộp 2D chỉ cần hai điểm đối diện để xác định hoàn toàn. Trong khi đó, một hộp 3D chỉ có thể được xác định bởi 8 đỉnh của hình hộp, hoặc thông qua tọa độ tâm, ba kích thước và góc định hướng trên ba trục không gian. Điều này khiến quá trình gán nhãn trở nên rất tốn thời gian nếu muốn chính xác.
- Hình dạng bất quy tắc: Nhiều vật thể trong thế giới thực có đường cong hoặc hình học không đều (ví dụ: cây cối, máy móc công trình), nên không thể khớp hoàn toàn vào dạng hình hộp.
- Che khuất một phần: Việc xác định ranh giới đầy đủ của một vật thể khi chỉ nhìn thấy một phần là rất khó, đặc biệt khi đối tượng ở xa cảm biến LiDAR.
- Cảnh đông đúc: Trong môi trường giao thông dày đặc, việc đặt cuboid sao cho không bị chồng chéo và vẫn thể hiện đúng độ sâu, hướng của đối tượng là một thách thức lớn.
Gán nhãn phân đoạn (Segmentation labeling)
Phân đoạn ngữ nghĩa (semantic segmentation) liên quan đến việc gán nhãn cho từng điểm trong đám mây điểm — ví dụ: “xe cộ,” “đường,” “cây,” hay “người đi bộ.” Cách này tương tự phân đoạn ảnh 2D, nơi mỗi pixel được gắn một nhãn. Tuy nhiên, do đặc thù dữ liệu 3D, việc phân đoạn đám mây điểm khó chính xác hơn nhiều.
Thách thức chính:
- Độ chính xác cấp điểm trong 3D: Đòi hỏi mức độ chi tiết tương tự ảnh 2D, nhưng thêm một chiều không gian, làm tăng đáng kể độ phức tạp.
- Nhiễu từ cảm biến: Sự thay đổi về khả năng phản xạ và đặc tính bề mặt (như kính hoặc kim loại) có thể gây sai lệch dữ liệu.
- Danh mục mơ hồ: Phân biệt các đối tượng có hình dáng tương tự — như xe máy và xe đạp, hay ghế băng và thùng hàng — thường mang tính chủ quan nếu thiếu ngữ cảnh. Khác với hình ảnh, đa số đám mây điểm không có thông tin màu sắc, khiến việc xác định chính xác lớp đối tượng trở nên khó khăn hơn.
- Tách nền: Trong khi đây không phải là vấn đề lớn đối với gán nhãn cuboid, việc phân biệt điểm nào thuộc về đối tượng và điểm nào thuộc về mặt đất mà nó đang đứng trên lại rất khó khăn và tốn thời gian.

Nhiễu, ngoại lai và các yếu tố biến thiên khác trong đám mây điểm
Hệ thống LiDAR dễ bị ảnh hưởng bởi môi trường. Thời tiết, ánh sáng và khả năng phản xạ bề mặt có thể gây ra nhiễu và điểm ngoại lai trong dữ liệu. Điều này tạo thêm nhiều khó khăn khi gán nhãn đám mây điểm.
Nguồn gốc gây nhiễu:
- Ảnh hưởng môi trường: Mưa, tuyết và sương mù làm tán xạ chùm laser, tạo ra các điểm “ảo” hoặc vùng trống.
- Bề mặt phản xạ: Gương, cửa kính, và bề mặt xe sáng bóng có thể sinh ra điểm sai lệch.
- Nhòe do chuyển động: Khi đối tượng hoặc cảm biến di chuyển trong lúc quét, hình dạng vật thể có thể bị biến dạng, tạo ra các cụm điểm méo mó. Mặc dù điều này thường không quá nghiêm trọng khi xem từng lần quét riêng lẻ, nhưng nó trở thành vấn đề lớn khi đám mây điểm được tạo từ nhiều lần quét tích lũy.
Cách xử lý vấn đề:
Có một số biện pháp giúp giảm bớt ảnh hưởng, tuy nhiên, cần lưu ý rằng ngay cả với các biện pháp này, nhiễu và điểm ngoại lai vẫn là rào cản đáng kể đối với việc gán nhãn ổn định và chất lượng cao.
- Loại bỏ ngoại lai thống kê (Statistical Outlier Removal – SOR): Lọc bỏ các điểm thưa hoặc không nhất quán dựa trên khoảng cách trung bình.
- Lọc lưới voxel (Voxel Grid Filtering): Giảm độ phức tạp dữ liệu bằng cách tính trung bình các điểm trong những khối lập phương nhỏ (voxel).
Các yếu tố khác ảnh hưởng đến gán nhãn
Môi trường thực tế khó dự đoán và thay đổi liên tục. Những biến thiên này tác động trực tiếp đến độ rõ ràng và tính nhất quán của dữ liệu LiDAR.
- Điều kiện thời tiết: Sương mù, mưa, và tuyết làm tán xạ chùm tia LiDAR, giảm chất lượng dữ liệu.
- Điều kiện ánh sáng: Mặc dù LiDAR không phụ thuộc vào ánh sáng môi trường, nhưng bối cảnh ban đêm hoặc ngược sáng vẫn khiến việc diễn giải dữ liệu trở nên phức tạp.
- Đối tượng động: Việc gán nhãn cho người đi bộ, xe đạp hoặc xe cộ đang di chuyển qua nhiều khung hình liên tiếp đòi hỏi tính nhất quán theo thời gian.
- Địa hình và độ cao: Đồi, dốc và địa hình không bằng phẳng làm tăng thêm thách thức khi đặt nhãn 3D chính xác.
Một pipeline gán nhãn hiệu quả phải được xây dựng để xử lý các trường hợp đặc biệt và liên tục thích ứng với những kịch bản thực tế.
Tích hợp đa cảm biến (Multi-sensor integration)
Hợp nhất cảm biến (sensor fusion) là một kỹ thuật quan trọng giúp khai thác tối đa lợi ích từ nhiều loại cảm biến khác nhau.
Nhiều hệ thống nhận thức kết hợp LiDAR với camera, radar hoặc cảm biến quán tính (inertial sensors) để có cái nhìn toàn diện hơn về môi trường xung quanh. Quá trình này, gọi là sensor fusion, mang lại nhiều lợi ích hơn so với việc xử lý từng luồng dữ liệu riêng lẻ.
Lợi ích:
- Cải thiện khả năng nhận dạng đối tượng: Kết cấu hình ảnh từ camera bổ sung cho độ chính xác hình học của LiDAR.
- Tăng độ bền vững trong điều kiện thay đổi: Radar có thể phát hiện vật thể ngay cả trong sương mù hoặc mưa, khi LiDAR có thể gặp hạn chế.
Thách thức trong tích hợp:
- Đồng bộ thời gian: Các cảm biến phải ghi nhận dữ liệu cùng một thời điểm. Chỉ vài mili-giây lệch cũng có thể làm sai lệch kết quả.
- Căn chỉnh hệ tọa độ: Mỗi cảm biến có một hệ quy chiếu riêng. Việc hiệu chuẩn chính xác là cần thiết để hợp nhất dữ liệu đúng cách.
- Căn chỉnh gán nhãn: Nhãn dữ liệu phải nhất quán trên các chế độ cảm biến khác nhau — một hộp giới hạn bị lệch giữa dữ liệu LiDAR và camera có thể làm giảm hiệu quả của mô hình.
Các công cụ gán nhãn hỗ trợ sensor fusion cần được trang bị siêu dữ liệu hiệu chuẩn (calibration metadata) và khả năng chiếu thông minh (smart projection), điều này làm tăng thêm độ phức tạp của hệ thống.
Yêu cầu đối với gán nhãn chất lượng cao (High-quality annotation requirements)
Để huấn luyện các mô hình AI có khả năng ra quyết định theo thời gian thực, chất lượng của dữ liệu gán nhãn LiDAR không thể bị xem nhẹ.
Vậy gán nhãn chất lượng cao bao gồm những gì?
- Độ chính xác trên quy mô lớn (Precision at Scale): Mọi đối tượng — dù lớn hay nhỏ — đều phải được gán nhãn với độ chính xác hình học.
- Người gán nhãn có chuyên môn (Expert Annotators): Hiểu biết về hình học 3D và hành vi của đối tượng là rất quan trọng. Việc đào tạo người gán nhãn đòi hỏi nhiều thời gian và công sức.
- Kiểm duyệt nhiều vòng (Multi-Pass QA): Kiểm soát chất lượng qua nhiều vòng xác thực giúp đảm bảo tính nhất quán trên toàn bộ tập dữ liệu.
- Công cụ nâng cao (Advanced Tooling): Các tính năng như nội suy thông minh (smart interpolation), lọc theo lớp (class-based filtering), và gán nhãn tự động hỗ trợ bởi AI (AI-assisted pre-labeling) giúp tăng tốc và tinh chỉnh quy trình.
Tuy nhiên, việc đạt được mức độ chi tiết này vừa tốn kém vừa tốn thời gian, đặc biệt khi phải xử lý các bộ dữ liệu quy mô lớn cho doanh nghiệp hoặc phòng thí nghiệm nghiên cứu.
Các công cụ gán nhãn giúp giảm bớt vấn đề
Các công cụ gán nhãn hiện đại đã phát triển đáng kể để giải quyết những thách thức nêu trên và mang lại các giải pháp tinh vi có thể cải thiện mạnh mẽ cả hiệu quả lẫn độ chính xác.
Hỗ trợ bởi AI (AI Assistance)
Nhiều nền tảng gán nhãn hiện nay đã tích hợp các công cụ dựa trên học máy (Machine Learning) có khả năng tự động phát hiện và gán nhãn sơ bộ các đối tượng phổ biến như phương tiện, người đi bộ và hạ tầng giao thông. Điều này giúp giảm đáng kể khối lượng công việc thủ công và tạo ra một điểm khởi đầu nhất quán để người gán nhãn tinh chỉnh thêm.
Trực quan hóa và điều hướng 3D (3D Visualization and Navigation)
Các nền tảng gán nhãn trưởng thành cho phép người gán nhãn quan sát đám mây điểm từ nhiều góc độ, phóng to chi tiết nhỏ và điều hướng trực quan qua các cảnh phức tạp. Điều này giải quyết thách thức về độ phức tạp không gian, giúp dễ dàng hơn trong việc xác định ranh giới đối tượng trong không gian 3D.
Tích hợp với nhiều cảm biến (Integration with Multiple Sensors)
Một tính năng then chốt giúp cải thiện ngay lập tức chất lượng gán nhãn là khả năng hợp nhất dữ liệu LiDAR với hình ảnh từ camera, mang lại cho người gán nhãn bối cảnh phong phú hơn, từ đó nâng cao độ chính xác và giảm mơ hồ trong các tình huống khó.
Bởi vì mật độ điểm giảm khi khoảng cách từ cảm biến LiDAR tăng, việc có thêm hình ảnh từ camera làm tham chiếu là một hỗ trợ lớn trong việc nhận diện đối tượng.

Kết luận
Gán nhãn dữ liệu LiDAR nằm ở trung tâm của các hệ thống nhận thức 3D hiện đại — nhưng đây không phải là một nhiệm vụ đơn giản. Người gán nhãn phải đối mặt với những thách thức từ độ phức tạp vốn có của đám mây điểm cho đến sự biến đổi của các điều kiện thực tế, đồng thời vẫn phải đảm bảo độ chính xác đến từng mi-li-mét.
Tuy nhiên, lĩnh vực này đang phát triển rất nhanh. Các công cụ gán nhãn được hỗ trợ bởi AI, quy trình bán tự động, và các nền tảng cộng tác đang bắt đầu thu hẹp khoảng cách giữa độ phức tạp và hiệu quả. Những công cụ như của Mindkosh và các công ty gán nhãn AI khác đang tận dụng tự động hóa, học máy và cộng tác trên nền tảng đám mây để tối ưu hóa quy trình gán nhãn LiDAR trên quy mô lớn.
Để đáp ứng nhu cầu ngày càng tăng của xe tự hành, thành phố thông minh và robot tiên tiến, hệ sinh thái này cần sự đầu tư liên tục — vào công cụ tốt hơn, quy trình thông minh hơn và nguồn nhân lực chất lượng cao.
Gán nhãn LiDAR có thể là một trong những thách thức lớn nhất của phát triển AI ngày nay, nhưng với sự đổi mới và kiên trì, chúng ta đang tiến gần hơn tới việc vượt qua nó.
Coral Mountain Data là công ty cung cấp dịch vụ gán nhãn dữ liệu chất lượng cao cho các mô hình trí thông minh nhân tạo (AI) và học máy (ML) giúp cung cấp nguồn dữ liệu đầu vào chất lượng cao, giải pháp gán nhãn dự liệu bao gồm dữ liệu các đám mây điểm do Lidar ghi lại làm gia tăng hiệu năng các mô hình.
Recommended for you
- News
Introduction LiDAR, radar, and sonar are three foundational remote sensing technologies, each operating based on a...
- News
Explore the world of object detection from point clouds. Learn about techniques, challenges, and real-world applications....
- Datasets, AI
Determining the effective operating range of a LiDAR (Light Detection and Ranging) sensor is a critical...
Coral Mountain Data
Office
- Group 3, Cua Lap, Duong To, Phu Quoc, Kien Giang, Vietnam
- (+84) 39 652 6078
- info@coralmountaindata.com
Data Factory
- An Thoi, Phu Quoc, Vietnam
- Vung Bau, Phu Quoc, Vietnam

Copyright © 2024 Coral Mountain Data. All rights reserved.