Shanghai Neardi Technology Co., Ltd. Profil przedsiębiorstwa

Nowości

Do domu > Nowości >

Informacje o firmie Od Logiki Algorytmu do Układu Scalonego - Wdrożenie Po Stronie Chipa: Ewolucja Wykrywania Obiektów YOLO i Praktyka Rockchip

Od Logiki Algorytmu do Układu Scalonego - Wdrożenie Po Stronie Chipa: Ewolucja Wykrywania Obiektów YOLO i Praktyka Rockchip

2026-01-12

Stojąc na rozdrożu, wystarczy przelotne spojrzenie, aby mózg natychmiast oznaczył wszystko w polu widzenia: ten czerwony autobus wjeżdża na przystanek, dziecko na chodniku biegnie, a skuter dostarczający jedzenie pędzi obok. Ta niemal intuicyjna reakcja była kiedyś niezwykle trudna do nauczenia dla komputerów. Tak było do czasu, aż pojawiło się YOLO. You Only Look Once - w momencie przechwycenia obrazu klasyfikacja i lokalizacja są wykonywane jednocześnie. Pozwoliło to wykrywaniu obiektów pożegnać się z wyczerpującymi poszukiwaniami i, podobnie jak ludzka intuicja, naprawdę obdarzyło maszyny esencją myślenia w czasie rzeczywistym.

najnowsze wiadomości o firmie Od Logiki Algorytmu do Układu Scalonego - Wdrożenie Po Stronie Chipa: Ewolucja Wykrywania Obiektów YOLO i Praktyka Rockchip 0

Wizualna "Intuicja": Filozofia regresji YOLO

Przed narodzinami YOLO, dziedziną wizji komputerowej dominowała dwuetapowa architektura. Wtedy, aby wykryć obiekt, algorytm musiał najpierw wyodrębnić tysiące propozycji regionów, a następnie klasyfikować je jeden po drugim. Geniusz YOLO polega na tym, że całkowicie obalił ten uciążliwy proces "propozycja-następnie-weryfikacja" i zrekonstruował wykrywanie obiektów z zadania klasyfikacji w problem regresji end-to-end.

Kiedy wprowadzasz obraz do sieci YOLO, przecinasz węzeł gordyjski, bezpośrednio dzieląc obraz na siatkę S*S. Każda siatka jest nie tylko wycinkiem obrazu, ale także punktem cechy w tensorze wyjściowym sieci.

Zintegrowane przewidywanie tensora: Każda siatka bezpośrednio przewiduje informacje o współrzędnych (x, y, w, h) wielu ramek ograniczających, a także wynik ufności wskazujący, czy obiekt jest obecny.

Równoległa klasyfikacja i lokalizacja: Podczas przewidywania współrzędnych, każda siatka oblicza również zestaw prawdopodobieństw klas. Oznacza to, że lokalizacja i klasyfikacja są wykonywane w pełni równolegle w obrębie wyjścia tej samej warstwy sieci neuronowej.

Globalne sprzężenie cech: Dzięki konstrukcji end-to-end sieci, ma ona dostęp do globalnych informacji całego obrazu podczas podejmowania decyzji. W porównaniu z tradycyjnymi algorytmami, które skupiają się tylko na lokalnych propozycjach regionów, takie "szerokie spojrzenie" YOLO pozwala mu dokładniej identyfikować szumy tła, co sprawia, że rzadziej błędnie klasyfikuje nieregularnie ukształtowane chmury jako ptaki.

YOLO w wizji AI w przemyśle

Wiele osób myśli, że AI jest odległe, ale szczerze mówiąc, YOLO od dawna "zacięcie rywalizuje" w zakątkach, których nie widzimy.

Inteligentne place budowy: Na budowach tuneli wypełnionych pyłem lub przy bardzo słabym oświetleniu, YOLOv9 wykazuje niezwykle silne możliwości ekstrakcji cech.

Wykrywanie zgodności z zachowaniem: Może nie tylko zidentyfikować obecność lub brak kasków ochronnych i kamizelek odblaskowych, ale także określić, czy są one prawidłowo noszone (np. czy pasek kasku jest zapięty, czy zamek jest całkowicie zapięty) poprzez szczegółowe cechy.

Przetwarzanie o wysokiej współbieżności: Obsługuje wykrywanie w czasie rzeczywistym na dużą skalę ponad 50 osób na klatkę. W połączeniu z technologią obrazowania w podczerwieni, realizuje skok od "ręcznego monitoringu" do "automatycznego wczesnego ostrzegania 24/7".

Zarządzanie miejskie: Scenariusze zarządzania miastem i kompleksowego zarządzania nakładają wysokie wymagania na zdolność algorytmów do przeciwdziałania zakłóceniom.

Zarządzanie statyczne: Łącząc porównywanie obrazów historycznych i segmentację semantyczną, system może dokładnie identyfikować nowo wybudowane nielegalne konstrukcje, gromadzenie śmieci lub zajmowanie dróg dla biznesu, a nawet automatycznie kwantyfikować powierzchnię i objętość naruszeń.

Bezpieczeństwo dynamiczne: W oparciu o rozpoznawanie postawy (OpenPose/YOLO-Pose), system może wrażliwie rejestrować nietypowe zachowania, takie jak "upadek osoby na ziemię" i łączyć się z systemami medycznymi ratunkowymi. W gęstych tłumach wykorzystuje algorytm grupowania gęstości (DBSCAN) do monitorowania gęstości tłumu w czasie rzeczywistym i zapobiegania ryzyku paniki.

Kontrola zasilania: Fuzja multimodalna w obszarach wysokiego ryzyka, takich jak podziemne tunele kablowe lub wieże wysokiego napięcia: Łącząc chmurę punktów lidar i obrazowanie termowizyjne w podczerwieni, może przeprowadzać bezkontaktowe wykrywanie nienormalnego nagrzewania transformatorów, prądu upływu odgromników lub pochylenia wieży (z dokładnością 0,1°) z odległości 30 metrów.

Automatyczna ocena wad: W przypadku drobnych ukrytych zagrożeń, takich jak uszkodzenie kabli i korozja wsporników, dokładność rozpoznawania przekracza 92%, co znacznie poprawia wydajność eksploatacji i konserwacji oraz zapewnia bezpieczeństwo personelu.

Zapobieganie pożarom lasów: W przypadku wykrywania dymu i ognia na dużych obszarach o nieregularnych kształtach, YOLO wykazuje ultraszybką zdolność reakcji.

Dokładna identyfikacja dymu i ognia: Łącząc cechy obrazu i dane radiacji termicznej, może odróżnić pożary lasów, ogniska lub spalanie gruntów rolnych w ciągu 2 sekund, z niezwykle silną zdolnością do przeciwdziałania zakłóceniom ze strony chmur i cieni roślinności.

Świadomość sytuacyjna: Integrując informacje geograficzne GIS i model lasu losowego, system może nie tylko wykrywać pożar, ale także przewidywać trend rozprzestrzeniania się na podstawie prędkości wiatru i terenu, dostarczając map wizualnych do planowania na miejscu.

Ostateczna optymalizacja mocy obliczeniowej dla RK3588/RK3576

Szczerze mówiąc, testowanie na karcie graficznej to tylko rozgrzewka. To, co naprawdę umożliwia wdrożenie i implementację YOLO, to przeniesienie go do SoC w rozmiarze chipa, takich jak RK3588 lub RK3576 firmy Rockchip. To nie tylko prosta migracja kodu, ale "ekstremalne wykorzystanie" mocy obliczeniowej, przepustowości i pamięci. Aby osiągnąć wykrywanie obiektów na poziomie milisekund na tych platformach SoC, zazwyczaj wymagane są następujące kroki:

"Przetłumacz" model: NPU (Neural Processing Unit) chipa ma własne specyfikacje i nie może interpretować natywnych plików treningowych .pt PyTorcha. Używając RKNN-Toolkit2, model jest konwertowany do formatu ONNX, a następnie demontowany i rekonstruowany do formatu .rknn, który chip może zrozumieć - obserwując, jak złożone operatory są reorganizowane w ścieżki obliczeniowe preferowane przez NPU.

"Odchudzanie" przez kompresję: Natywne modele FP32 (32-bitowa zmiennoprzecinkowa) mają ogromną liczbę parametrów, nakładając duże obciążenie na przepustowość i pamięć wbudowanych chipów. Algorytmy kwantyzacji kompresują wagi i aktywacje z 32 bitów do 8 bitów, zmniejszając zużycie pamięci o pełne 75%. To nie tylko łagodzi nacisk na przepustowość DDR, ale także skutecznie obniża zużycie energii obliczeniowej.

"Optymalizacja transferu danych": Nawet jeśli model jest wystarczająco szybki, NPU nadal będzie "siedzieć bezczynnie", jeśli procesor jest zajęty przenoszeniem strumieni wideo w pamięci. Aby uniknąć marnowania choćby milisekundy, technologia DMA-BUF zero-copy jest używana do umożliwienia udostępniania danych strumienia wideo w pamięci wideo między ISP, GPU i NPU, całkowicie eliminując obciążenie kopiowania procesora. W połączeniu z logiką równoległą dla asynchronicznego wnioskowania, następna klatka jest już w kolejce do przetworzenia, podczas gdy bieżąca klatka wciąż przechodzi operacje splotu. Ta płynna koordynacja pozwala na płynne działanie strumieni wideo w czasie rzeczywistym na chipie.

Która wersja YOLO jest Twoim "wyborem"?

Podczas wdrażania na urządzeniach wbudowanych, wybór wersji nie polega po prostu na "gonieniu za najnowszym"; zamiast tego wymaga zrównoważenia obciążenia mocą obliczeniową, kompatybilności operatorów i wymagań dotyczących dokładności konkretnych zadań.

Test inżynieryjny: YOLOv5

Jako wersja z najbardziej dojrzałym ekosystemem, YOLOv5 może pochwalić się niezwykle wysoką stabilnością i pokryciem wdrożeniowym w sektorze przemysłowym.

Funkcje techniczne: Przyjmuje mechanizm oparty na kotwicach z elastyczną architekturą (dostępny w wielu skalach od Nano do Huge).
Zalety wdrożeniowe: Zestaw narzędzi RKNN firmy Rockchip zapewnia dla niego najbardziej kompleksowe wsparcie z doskonałą kompatybilnością operatorów, co czyni go pierwszym wyborem dla szybkiego wdrażania projektów i wysokiej stabilności.

Wszechstronna architektura: YOLOv8

YOLOv8 wprowadza mechanizm bez kotwic, osiągając ujednoliconą architekturę dla wykrywania, segmentacji i estymacji pozy (Pose).

Funkcje techniczne: Wykorzystuje moduł C2f do ulepszenia przepływu cech i poprawia dokładność regresji poprzez Decoupled Head.
Zalety wdrożeniowe: Uderza w doskonałą równowagę między dokładnością a szybkością podczas obsługi wielozadaniowości (np. jednoczesne wykrywanie obiektów i ekstrakcja punktów kluczowych człowieka), co czyni go głównym rozwiązaniem na wysokowydajnych SoC, takich jak RK3588 obecnie.

Skok wydajności end-to-end: YOLOv10

YOLOv10 poczyniło przełomowe postępy w rozwiązywaniu wąskiego gardła post-processingu w wykrywaniu w czasie rzeczywistym.

Funkcje techniczne: Wprowadza strategię bez NMS (Non-Maximum Suppression-free), eliminując niedeterminizm w opóźnieniu wnioskowania poprzez wyrównanie projektu dopasowania jeden-do-wielu i jeden-do-jednego.
Zalety wdrożeniowe: Na brzegu, NMS często stanowi znaczną część zużycia czasu procesora. YOLOv10 całkowicie rozwiązuje tę utratę wydajności, umożliwiając procesowi wnioskowania wykazywanie lepszej liniowej stabilności na sprzęcie SoC.

Ewolucja wysokiej precyzji: YOLOv11 i VajraV1

Reprezentują one najnowsze iteracje technologiczne dla złożonych scenariuszy, koncentrując się na przechwytywaniu szczegółowych cech.

Funkcje techniczne: YOLOv11 optymalizuje lekkie mechanizmy uwagi (C3k2/C2PSA), podczas gdy VajraV1 jest głęboko dostosowany do urządzeń brzegowych na tej podstawie. Poprzez poszerzenie splotów rdzeniowych i przyjęcie projektu prowadzonego przez niską rangę, znacznie poprawia niezawodność w złożonych środowiskach.
Zalety wdrożeniowe: Ma wyraźne zalety w wykrywaniu gęstych obiektów, scenariuszach zasłaniania i precyzyjnej percepcji pozy (np. szczegóły dotyczące noszenia kasku ochronnego, szczegółowe rozpoznawanie działań), reprezentując najwyższy górny limit dokładności wykrywania osiągalny przez rodzinę YOLO na urządzeniach wbudowanych do chwili obecnej.

Ewolucja algorytmów obniżyła próg percepcji, podczas gdy popularyzacja chipów poszerzyła granice inteligencji.

Wydarzenia

Nowości

Sprawy

Kontakty

Kontakty: Mr. Cola

Tel.: 86-021-20952021

Skontaktuj się teraz

Wyślij nam wiadomość.

System na modułach SoM

Komputer jednopłytkowy

Wbudowany komputer

Komputer wbudowany w pojazd

Rockchip SBC

Nvidia Jetson SBC

Moduł Wi-Fi

pudełko przemysłowe szt

Moduł SoM dla Linuksa

Moduł systemu Android na urządzeniu

Android Embedded Board

System na modułach SoM

Komputer jednopłytkowy

Wbudowany komputer

Komputer wbudowany w pojazd

Rockchip SBC

Nvidia Jetson SBC

Moduł Wi-Fi

pudełko przemysłowe szt

Moduł SoM dla Linuksa

Moduł systemu Android na urządzeniu

Android Embedded Board

Od Logiki Algorytmu do Układu Scalonego - Wdrożenie Po Stronie Chipa: Ewolucja Wykrywania Obiektów YOLO i Praktyka Rockchip

Nowości

Sprawy

System na modułach SoM

Komputer jednopłytkowy

Wbudowany komputer

Komputer wbudowany w pojazd

Rockchip SBC

Nvidia Jetson SBC