Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Quando estamos numa encruzilhada, só precisamos de um olhar fugaz para o nosso cérebro identificar instantaneamente tudo no nosso campo de visão: aquele autocarro vermelho está a chegar à estação,a criança na calçada está correndoEsta reação quase intuitiva era uma vez extremamente difícil de aprender para os computadores.Você só olha uma vez no momento em que uma imagem é capturadaA detecção de objetos permitiu despedir-se das pesquisas exaustivas e, tal como a intuição humana, a detecção de objetos foi a primeira ferramenta de detecção de objetos.máquinas verdadeiramente dotadas da essência do pensamento em tempo real.
![]()
Antes do nascimento do YOLO, o campo da visão por computador tinha sido dominado pela arquitetura de dois estágios.um algoritmo teve primeiro que extrair milhares de propostas de região, e depois classificá-los um por um. The genius of YOLO lies in that it completely overturned this cumbersome "proposal-then-verification" process and reconstructed object detection from a classification task into an end-to-end regression problem.
Quando você introduz uma imagem na rede YOLO, ele corta o nó gordiano dividindo diretamente a imagem em uma grade S * S. Cada grade não é apenas uma fatia da imagem,mas também um ponto de característica no tensor de saída de rede.
Predicção de tensores integrados: Cada grade prevê diretamente as informações de coordenadas (x, y, w, h) de várias caixas de delimitação, bem como uma pontuação de confiança que indica se um objeto está presente aqui.
Classificação e localização paralelas: Ao mesmo tempo em que prevê coordenadas, cada grade também calcula um conjunto de probabilidades de classe.Isto significa que a localização e classificação são completadas de forma totalmente paralela dentro da saída da mesma camada da rede neural.
Acoplamento de características globais: Graças ao design de ponta a ponta da rede, tem acesso à informação global de toda a imagem ao tomar decisões.Em comparação com os algoritmos tradicionais que se concentram apenas nas propostas da região local, a "visão de grande escala" do YOLO permite identificar o ruído de fundo com mais precisão, tornando menos provável a classificação errada de nuvens de forma irregular como pássaros.
Muitas pessoas pensam que a IA está distante, mas, honestamente, a YOLO há muito tempo "compete ferozmente" em curvas invisíveis para nós.
Sítios de construção inteligentes: Em locais de construção de túneis cheios de poeira ou com iluminação extremamente fraca, o YOLOv9 demonstra capacidades extremamente fortes de extracção de características.
Detecção da conformidade comportamental: Pode não só identificar a presença ou ausência de capacetes de segurança e coletes reflexivos, mas também determinar se são usados adequadamente (por exemplo, se a correia do capacete está presa, se o equipamento está equipado com um dispositivo de proteção adequado, se o equipamento está equipado com um dispositivo de proteção adequado).ou o fecho é totalmente fechado) através de características detalhadas.
Processamento de alta convergência: Suporta detecção em tempo real em larga escala de mais de 50 pessoas por quadro. Combinado com tecnologia de imagem infravermelha, realiza o salto de "monitorização manual" para "alerta precoce automático 24/7".
Gestão urbana: Os cenários de gestão urbana e de governação abrangente impõem elevados requisitos à capacidade anti-interferência dos algoritmos.
Gestão estática: Combinando comparação de imagens históricas e segmentação semântica, o sistema pode identificar com precisão estruturas ilegais recém-construídas, acumulação de lixo ou ocupação de estradas para empresas,e até mesmo quantificar automaticamente a área e o volume de violações.
Segurança dinâmica: Com base no reconhecimento de posturas (OpenPose/YOLO-Pose), o sistema pode captar de forma sensível comportamentos anormais como "pessoa caindo no chão" e ligar-se aos sistemas médicos de emergência.,utiliza um algoritmo de agrupamento de densidades (DBSCAN) para monitorizar a densidade da multidão em tempo real e prevenir riscos de estampida.
Inspecção de potência:Fusão multimodalem zonas de alto risco, tais como túneis de cabos subterrâneos ou torres de transmissão de alta tensão: através da fusão de nuvens de pontos lidar e imagens térmicas infravermelhas,Pode realizar detecção sem contacto de aquecimento anormal do transformador, corrente de vazamento do arrester ou inclinação da torre (com uma precisão de 0,1°) a uma distância de 30 metros.
Julgamento automático dos defeitos: Para pequenos perigos ocultos, tais como danos nos cabos e corrosão dos suportes, a precisão de reconhecimento excede 92%, o que melhora consideravelmente a eficiência da operação e da manutenção e garante a segurança do pessoal.
Prevenção de incêndios florestais: Para a detecção de fumaça e incêndio de grande área, de forma irregular, o YOLO demonstra capacidade de resposta ultra-rápida.
Identificação precisa de fumaça e fogo: Combinando características de imagem e dados de radiação térmica, pode distinguir incêndios florestais, fogos de campo ou queimadas de terras agrícolas em 2 segundos,com capacidade anti-interferência extremamente forte contra nuvens e sombras de vegetação.
Consciência da situação: Integrando informações geográficas do SIG e modelo florestal aleatório, o sistema não só pode detectar incêndios, mas também prever a tendência de propagação com base na velocidade do vento e no terreno,fornecimento de mapas visuais para a programação no local.
Optimização de Potência de Computação Ultimate para RK3588/RK3576
Sinceramente, o benchmarking em uma placa gráfica é apenas um aquecimento. o que realmente permite que o YOLO seja implantado e implementado é portá-lo em SoCs de tamanho de chip como o Rockchip RK3588 ou RK3576.Isto não é apenas uma simples migração de códigoPara alcançar a detecção de objetos de nível de milissegundo nessas plataformas SoC, normalmente são necessárias as seguintes etapas:
"Traduza" o Modelo:O NPU do chip (Neural Processing Unit) tem suas próprias especificações e não pode interpretar os arquivos de treinamento nativos.pt do PyTorch. Usando o RKNN-Toolkit2, o modelo é convertido para o formato ONNX,depois desmontado e reconstruído no.rknn formato que o chip pode compreender observando operadores complexos serem reorganizados nos caminhos de computação favorecidos pela NPU.
"Diminuição de peso" através da compressão: Os modelos nativos FP32 (32 bits com ponto flutuante) têm um enorme número de parâmetros, impondo uma carga pesada na largura de banda e no armazenamento de chips incorporados.Algoritmos de quantização comprimem pesos e ativações de 32 bits para 8 bitsA utilização da memória é reduzida em 75%, o que não só alivia a pressão da largura de banda DDR, mas também reduz eficazmente o consumo de energia computacional.
Optimização da "Transferência de Dados": Mesmo que o modelo seja rápido o suficiente, a NPU ainda "estará inactiva" se a CPU estiver ocupada movendo fluxos de vídeo na memória.A tecnologia de cópia zero DMA-BUF é usada para permitir o compartilhamento de dados de fluxo de vídeo na memória de vídeo entre o ISPCombinado com a lógica paralela para inferência assíncrona,o quadro seguinte já está na fila para processamento enquanto o quadro atual ainda está passando por operações de convoluçãoEsta coordenação perfeita é o que permite que os fluxos de vídeo em tempo real funcionem sem problemas no chip.
Qual versão do YOLO é a sua "escolha"?
Quando se implementa em dispositivos embutidos, a escolha da versão não se resume simplesmente a "perseguir o mais recente"; em vez disso, requer equilibrar a sobrecarga de potência de computação, a compatibilidade do operador,e os requisitos de precisão de tarefas específicas.
Como a versão com o ecossistema mais maduro, o YOLOv5 possui uma estabilidade extremamente elevada e uma cobertura de implantação no setor industrial.
O YOLOv8 introduz um mecanismo sem âncora, alcançando uma arquitetura unificada para detecção, segmentação e estimativa de pose (Pose).
O YOLOv10 fez progressos inovadores na abordagem do estrangulamento do pós-processamento na detecção em tempo real.
Estes representam as últimas iterações tecnológicas para cenários complexos, concentrando-se em capturar características de grãos finos.
A evolução dos algoritmos reduziu o limiar para a percepção, enquanto a popularização dos chips expandiu os limites da inteligência.