Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Stojąc na rozdrożu, wystarczy przelotne spojrzenie, aby mózg natychmiast oznaczył wszystko w polu widzenia: ten czerwony autobus wjeżdża na przystanek, dziecko na chodniku biegnie, a skuter dostarczający jedzenie pędzi obok. Ta niemal intuicyjna reakcja była kiedyś niezwykle trudna do nauczenia dla komputerów. Tak było do czasu, aż pojawiło się YOLO. You Only Look Once - w momencie przechwycenia obrazu klasyfikacja i lokalizacja są wykonywane jednocześnie. Pozwoliło to wykrywaniu obiektów pożegnać się z wyczerpującymi poszukiwaniami i, podobnie jak ludzka intuicja, naprawdę obdarzyło maszyny esencją myślenia w czasie rzeczywistym.
![]()
Przed narodzinami YOLO, dziedziną wizji komputerowej dominowała dwuetapowa architektura. Wtedy, aby wykryć obiekt, algorytm musiał najpierw wyodrębnić tysiące propozycji regionów, a następnie klasyfikować je jeden po drugim. Geniusz YOLO polega na tym, że całkowicie obalił ten uciążliwy proces "propozycja-następnie-weryfikacja" i zrekonstruował wykrywanie obiektów z zadania klasyfikacji w problem regresji end-to-end.
Kiedy wprowadzasz obraz do sieci YOLO, przecinasz węzeł gordyjski, bezpośrednio dzieląc obraz na siatkę S*S. Każda siatka jest nie tylko wycinkiem obrazu, ale także punktem cechy w tensorze wyjściowym sieci.
Zintegrowane przewidywanie tensora: Każda siatka bezpośrednio przewiduje informacje o współrzędnych (x, y, w, h) wielu ramek ograniczających, a także wynik ufności wskazujący, czy obiekt jest obecny.
Równoległa klasyfikacja i lokalizacja: Podczas przewidywania współrzędnych, każda siatka oblicza również zestaw prawdopodobieństw klas. Oznacza to, że lokalizacja i klasyfikacja są wykonywane w pełni równolegle w obrębie wyjścia tej samej warstwy sieci neuronowej.
Globalne sprzężenie cech: Dzięki konstrukcji end-to-end sieci, ma ona dostęp do globalnych informacji całego obrazu podczas podejmowania decyzji. W porównaniu z tradycyjnymi algorytmami, które skupiają się tylko na lokalnych propozycjach regionów, takie "szerokie spojrzenie" YOLO pozwala mu dokładniej identyfikować szumy tła, co sprawia, że rzadziej błędnie klasyfikuje nieregularnie ukształtowane chmury jako ptaki.
Wiele osób myśli, że AI jest odległe, ale szczerze mówiąc, YOLO od dawna "zacięcie rywalizuje" w zakątkach, których nie widzimy.
Inteligentne place budowy: Na budowach tuneli wypełnionych pyłem lub przy bardzo słabym oświetleniu, YOLOv9 wykazuje niezwykle silne możliwości ekstrakcji cech.
Wykrywanie zgodności z zachowaniem: Może nie tylko zidentyfikować obecność lub brak kasków ochronnych i kamizelek odblaskowych, ale także określić, czy są one prawidłowo noszone (np. czy pasek kasku jest zapięty, czy zamek jest całkowicie zapięty) poprzez szczegółowe cechy.
Przetwarzanie o wysokiej współbieżności: Obsługuje wykrywanie w czasie rzeczywistym na dużą skalę ponad 50 osób na klatkę. W połączeniu z technologią obrazowania w podczerwieni, realizuje skok od "ręcznego monitoringu" do "automatycznego wczesnego ostrzegania 24/7".
Zarządzanie miejskie: Scenariusze zarządzania miastem i kompleksowego zarządzania nakładają wysokie wymagania na zdolność algorytmów do przeciwdziałania zakłóceniom.
Zarządzanie statyczne: Łącząc porównywanie obrazów historycznych i segmentację semantyczną, system może dokładnie identyfikować nowo wybudowane nielegalne konstrukcje, gromadzenie śmieci lub zajmowanie dróg dla biznesu, a nawet automatycznie kwantyfikować powierzchnię i objętość naruszeń.
Bezpieczeństwo dynamiczne: W oparciu o rozpoznawanie postawy (OpenPose/YOLO-Pose), system może wrażliwie rejestrować nietypowe zachowania, takie jak "upadek osoby na ziemię" i łączyć się z systemami medycznymi ratunkowymi. W gęstych tłumach wykorzystuje algorytm grupowania gęstości (DBSCAN) do monitorowania gęstości tłumu w czasie rzeczywistym i zapobiegania ryzyku paniki.
Kontrola zasilania: Fuzja multimodalna w obszarach wysokiego ryzyka, takich jak podziemne tunele kablowe lub wieże wysokiego napięcia: Łącząc chmurę punktów lidar i obrazowanie termowizyjne w podczerwieni, może przeprowadzać bezkontaktowe wykrywanie nienormalnego nagrzewania transformatorów, prądu upływu odgromników lub pochylenia wieży (z dokładnością 0,1°) z odległości 30 metrów.
Automatyczna ocena wad: W przypadku drobnych ukrytych zagrożeń, takich jak uszkodzenie kabli i korozja wsporników, dokładność rozpoznawania przekracza 92%, co znacznie poprawia wydajność eksploatacji i konserwacji oraz zapewnia bezpieczeństwo personelu.
Zapobieganie pożarom lasów: W przypadku wykrywania dymu i ognia na dużych obszarach o nieregularnych kształtach, YOLO wykazuje ultraszybką zdolność reakcji.
Dokładna identyfikacja dymu i ognia: Łącząc cechy obrazu i dane radiacji termicznej, może odróżnić pożary lasów, ogniska lub spalanie gruntów rolnych w ciągu 2 sekund, z niezwykle silną zdolnością do przeciwdziałania zakłóceniom ze strony chmur i cieni roślinności.
Świadomość sytuacyjna: Integrując informacje geograficzne GIS i model lasu losowego, system może nie tylko wykrywać pożar, ale także przewidywać trend rozprzestrzeniania się na podstawie prędkości wiatru i terenu, dostarczając map wizualnych do planowania na miejscu.
Ostateczna optymalizacja mocy obliczeniowej dla RK3588/RK3576
Szczerze mówiąc, testowanie na karcie graficznej to tylko rozgrzewka. To, co naprawdę umożliwia wdrożenie i implementację YOLO, to przeniesienie go do SoC w rozmiarze chipa, takich jak RK3588 lub RK3576 firmy Rockchip. To nie tylko prosta migracja kodu, ale "ekstremalne wykorzystanie" mocy obliczeniowej, przepustowości i pamięci. Aby osiągnąć wykrywanie obiektów na poziomie milisekund na tych platformach SoC, zazwyczaj wymagane są następujące kroki:
"Przetłumacz" model: NPU (Neural Processing Unit) chipa ma własne specyfikacje i nie może interpretować natywnych plików treningowych .pt PyTorcha. Używając RKNN-Toolkit2, model jest konwertowany do formatu ONNX, a następnie demontowany i rekonstruowany do formatu .rknn, który chip może zrozumieć - obserwując, jak złożone operatory są reorganizowane w ścieżki obliczeniowe preferowane przez NPU.
"Odchudzanie" przez kompresję: Natywne modele FP32 (32-bitowa zmiennoprzecinkowa) mają ogromną liczbę parametrów, nakładając duże obciążenie na przepustowość i pamięć wbudowanych chipów. Algorytmy kwantyzacji kompresują wagi i aktywacje z 32 bitów do 8 bitów, zmniejszając zużycie pamięci o pełne 75%. To nie tylko łagodzi nacisk na przepustowość DDR, ale także skutecznie obniża zużycie energii obliczeniowej.
"Optymalizacja transferu danych": Nawet jeśli model jest wystarczająco szybki, NPU nadal będzie "siedzieć bezczynnie", jeśli procesor jest zajęty przenoszeniem strumieni wideo w pamięci. Aby uniknąć marnowania choćby milisekundy, technologia DMA-BUF zero-copy jest używana do umożliwienia udostępniania danych strumienia wideo w pamięci wideo między ISP, GPU i NPU, całkowicie eliminując obciążenie kopiowania procesora. W połączeniu z logiką równoległą dla asynchronicznego wnioskowania, następna klatka jest już w kolejce do przetworzenia, podczas gdy bieżąca klatka wciąż przechodzi operacje splotu. Ta płynna koordynacja pozwala na płynne działanie strumieni wideo w czasie rzeczywistym na chipie.
Która wersja YOLO jest Twoim "wyborem"?
Podczas wdrażania na urządzeniach wbudowanych, wybór wersji nie polega po prostu na "gonieniu za najnowszym"; zamiast tego wymaga zrównoważenia obciążenia mocą obliczeniową, kompatybilności operatorów i wymagań dotyczących dokładności konkretnych zadań.
Jako wersja z najbardziej dojrzałym ekosystemem, YOLOv5 może pochwalić się niezwykle wysoką stabilnością i pokryciem wdrożeniowym w sektorze przemysłowym.
YOLOv8 wprowadza mechanizm bez kotwic, osiągając ujednoliconą architekturę dla wykrywania, segmentacji i estymacji pozy (Pose).
YOLOv10 poczyniło przełomowe postępy w rozwiązywaniu wąskiego gardła post-processingu w wykrywaniu w czasie rzeczywistym.
Reprezentują one najnowsze iteracje technologiczne dla złożonych scenariuszy, koncentrując się na przechwytywaniu szczegółowych cech.
Ewolucja algorytmów obniżyła próg percepcji, podczas gdy popularyzacja chipów poszerzyła granice inteligencji.