Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Đứng trước ngã rẽ, bạn chỉ cần liếc nhìn thoáng qua là bộ não của bạn sẽ ngay lập tức gán nhãn cho mọi thứ trong tầm nhìn của bạn: chiếc xe buýt màu đỏ đang vào trạm, đứa trẻ trên vỉa hè đang chạy và một chiếc xe tay ga giao đồ ăn đang phóng nhanh trên đường. Phản ứng gần như trực quan này đã từng cực kỳ khó khăn để máy tính học được. Cho đến khi YOLO xuất hiện. Bạn Chỉ Nhìn Một Lần — tại thời điểm một hình ảnh được chụp, việc phân loại và định vị được hoàn thành đồng thời. Nó cho phép phát hiện đối tượng nói lời tạm biệt với việc tìm kiếm tốn kém và, giống như trực giác của con người, thực sự ban cho máy móc bản chất của tư duy theo thời gian thực.
![]()
Trước khi YOLO ra đời, lĩnh vực thị giác máy tính đã bị thống trị bởi kiến trúc hai giai đoạn. Khi đó, để phát hiện một đối tượng, một thuật toán trước tiên phải trích xuất hàng nghìn đề xuất khu vực, sau đó phân loại chúng từng cái một. Thiên tài của YOLO nằm ở chỗ nó đã hoàn toàn lật đổ quy trình "đề xuất-rồi-xác minh" rườm rà này và tái tạo việc phát hiện đối tượng từ một tác vụ phân loại thành một bài toán hồi quy đầu cuối.
Khi bạn nhập một hình ảnh vào mạng YOLO, nó cắt đứt nút Gordian bằng cách chia trực tiếp hình ảnh thành một lưới S*S. Mỗi lưới không chỉ là một lát cắt của hình ảnh mà còn là một điểm đặc trưng trong tensor đầu ra của mạng.
Dự đoán Tensor Tích hợp: Mỗi lưới dự đoán trực tiếp thông tin tọa độ (x, y, w, h) của nhiều hộp giới hạn, cũng như điểm tin cậy cho biết liệu một đối tượng có hiện diện ở đây hay không.
Phân loại và Định vị Song song: Trong khi dự đoán tọa độ, mỗi lưới cũng tính toán một tập hợp các xác suất lớp. Điều này có nghĩa là định vị và phân loại được hoàn thành theo cách hoàn toàn song song trong đầu ra của cùng một lớp của mạng nơ-ron.
Ghép nối Đặc trưng Toàn cầu: Nhờ thiết kế đầu cuối của mạng, nó có quyền truy cập vào thông tin toàn cầu của toàn bộ hình ảnh khi đưa ra quyết định. So với các thuật toán truyền thống chỉ tập trung vào các đề xuất khu vực cục bộ, "góc nhìn lớn" như vậy của YOLO cho phép nó xác định nhiễu nền chính xác hơn, khiến nó ít có khả năng phân loại sai các đám mây có hình dạng bất thường thành chim.
Nhiều người nghĩ AI còn xa vời, nhưng thành thật mà nói, YOLO đã từ lâu "cạnh tranh khốc liệt" ở những góc khuất mà chúng ta không nhìn thấy.
Công trường Xây dựng Thông minh: Trong các công trường xây dựng đường hầm đầy bụi hoặc có ánh sáng cực kỳ kém, YOLOv9 thể hiện khả năng trích xuất đặc trưng cực kỳ mạnh mẽ.
Phát hiện Tuân thủ Hành vi: Nó không chỉ có thể xác định sự hiện diện hoặc vắng mặt của mũ bảo hiểm và áo phản quang mà còn xác định xem chúng có được mặc đúng cách hay không (ví dụ: dây mũ bảo hiểm có được cài chặt không, hoặc khóa kéo có được kéo hết không) thông qua các đặc điểm chi tiết.
Xử lý đồng thời cao: Nó hỗ trợ phát hiện theo thời gian thực quy mô lớn của hơn 50 người trên mỗi khung hình. Kết hợp với công nghệ chụp ảnh hồng ngoại, nó hiện thực hóa bước nhảy vọt từ "giám sát thủ công" sang "cảnh báo sớm tự động 24/7".
Quản trị Đô thị: Các tình huống quản lý đô thị và quản trị toàn diện đặt ra các yêu cầu cao về khả năng chống nhiễu của thuật toán.
Quản trị Tĩnh: Bằng cách kết hợp so sánh hình ảnh lịch sử và phân đoạn ngữ nghĩa, hệ thống có thể xác định chính xác các cấu trúc bất hợp pháp mới được xây dựng, tích tụ rác thải hoặc chiếm dụng đường để kinh doanh và thậm chí tự động định lượng diện tích và khối lượng vi phạm.
An ninh Động: Dựa trên nhận dạng tư thế (OpenPose/YOLO-Pose), hệ thống có thể nắm bắt nhạy bén các hành vi bất thường như "người ngã xuống đất" và liên kết với các hệ thống y tế khẩn cấp. Trong đám đông dày đặc, nó sử dụng thuật toán phân cụm mật độ (DBSCAN) để theo dõi mật độ đám đông theo thời gian thực và ngăn ngừa rủi ro giẫm đạp.
Kiểm tra Điện: Hợp nhất Đa phương thức trong các khu vực có rủi ro cao như đường hầm cáp ngầm hoặc tháp truyền tải điện áp cao: Bằng cách kết hợp đám mây điểm lidar và chụp ảnh nhiệt hồng ngoại, nó có thể tiến hành phát hiện không tiếp xúc các hiện tượng nóng bất thường của máy biến áp, dòng rò của bộ chống sét hoặc độ nghiêng của tháp (với độ chính xác 0,1°) từ khoảng cách 30 mét.
Phán đoán Lỗi Tự động: Đối với các mối nguy hiểm tiềm ẩn nhỏ như hư hỏng cáp và ăn mòn giá đỡ, độ chính xác nhận dạng vượt quá 92%, giúp cải thiện đáng kể hiệu quả vận hành và bảo trì và đảm bảo an toàn cho nhân viên.
Phòng cháy chữa cháy rừng: Đối với việc phát hiện khói và lửa trên diện rộng, có hình dạng bất thường, YOLO thể hiện khả năng phản ứng cực nhanh.
Nhận dạng Khói và Lửa Chính xác: Kết hợp các đặc điểm hình ảnh và dữ liệu bức xạ nhiệt, nó có thể phân biệt cháy rừng, lửa trại hoặc đốt đồng ruộng trong vòng 2 giây, với khả năng chống nhiễu cực mạnh đối với bóng mây và thực vật.
Nhận thức Tình huống: Tích hợp thông tin địa lý GIS và mô hình rừng ngẫu nhiên, hệ thống không chỉ có thể phát hiện cháy mà còn dự đoán xu hướng lan rộng dựa trên tốc độ gió và địa hình, cung cấp bản đồ trực quan để lập kế hoạch tại chỗ.
Tối ưu hóa Sức mạnh Tính toán Tối ưu cho RK3588/RK3576
Thành thật mà nói, việc chuẩn hóa trên card đồ họa chỉ là khởi động. Điều thực sự cho phép YOLO được triển khai và thực hiện là chuyển nó vào các SoC có kích thước chip như RK3588 hoặc RK3576 của Rockchip. Đây không chỉ là một quá trình di chuyển mã đơn giản mà là một "khai thác cực độ" sức mạnh tính toán, băng thông và bộ nhớ. Để đạt được khả năng phát hiện đối tượng ở cấp độ mili giây trên các nền tảng SoC này, các bước sau thường được yêu cầu:
"Dịch" Mô hình: NPU (Bộ xử lý thần kinh) của chip có thông số kỹ thuật riêng và không thể giải thích các tệp đào tạo .pt gốc của PyTorch. Sử dụng RKNN-Toolkit2, mô hình được chuyển đổi sang định dạng ONNX, sau đó được tháo rời và tái tạo thành định dạng .rknn mà chip có thể hiểu — xem các toán tử phức tạp được sắp xếp lại thành các đường dẫn tính toán được NPU ưa thích.
"Thu gọn" thông qua Nén: Các mô hình FP32 (dấu chấm động 32 bit) gốc có một số lượng lớn các tham số, gây gánh nặng lớn cho băng thông và bộ nhớ của các chip nhúng. Các thuật toán lượng tử hóa nén trọng số và kích hoạt từ 32 bit xuống 8 bit, giảm mức sử dụng bộ nhớ xuống 75%. Điều này không chỉ làm giảm áp lực băng thông DDR mà còn làm giảm hiệu quả mức tiêu thụ điện năng tính toán.
Tối ưu hóa "Truyền dữ liệu": Ngay cả khi mô hình đủ nhanh, NPU vẫn sẽ "ngồi không" nếu CPU bận di chuyển luồng video trong bộ nhớ. Để tránh lãng phí dù chỉ một mili giây, công nghệ sao chép bằng không DMA-BUF được sử dụng để cho phép chia sẻ dữ liệu luồng video trong bộ nhớ video giữa ISP, GPU và NPU, loại bỏ hoàn toàn chi phí sao chép CPU. Kết hợp với logic song song để suy luận không đồng bộ, khung hình tiếp theo đã được xếp hàng để xử lý trong khi khung hình hiện tại vẫn đang trải qua các phép toán tích chập. Sự phối hợp liền mạch này là điều cho phép các luồng video theo thời gian thực chạy trơn tru trên chip.
Phiên bản YOLO nào là "Lựa chọn hàng đầu" của bạn?
Khi triển khai trên các thiết bị nhúng, việc lựa chọn phiên bản không chỉ đơn giản là "đuổi theo phiên bản mới nhất"; thay vào đó, nó đòi hỏi sự cân bằng giữa chi phí sức mạnh tính toán, khả năng tương thích của toán tử và các yêu cầu về độ chính xác của các tác vụ cụ thể.
Là phiên bản có hệ sinh thái trưởng thành nhất, YOLOv5 tự hào có độ ổn định và phạm vi triển khai cực kỳ cao trong lĩnh vực công nghiệp.
YOLOv8 giới thiệu cơ chế Không neo, đạt được kiến trúc thống nhất để phát hiện, phân đoạn và ước tính tư thế (Pose).
YOLOv10 đã đạt được tiến bộ đột phá trong việc giải quyết nút thắt cổ chai sau xử lý trong phát hiện theo thời gian thực.
Chúng đại diện cho các lần lặp lại công nghệ mới nhất cho các tình huống phức tạp, tập trung vào việc nắm bắt các đặc điểm chi tiết.
Sự phát triển của các thuật toán đã hạ thấp ngưỡng nhận thức, trong khi sự phổ biến của chip đã mở rộng ranh giới của trí thông minh.