Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
De pie en una encrucijada, solo necesitas una mirada fugaz para que tu cerebro etiquete instantáneamente todo en tu campo de visión: ese autobús rojo está llegando a la estación,el niño en la acera está corriendoEsta reacción casi intuitiva fue una vez extremadamente difícil de aprender para las computadoras.Solo miras una vez en el momento en que se captura una imagenLa detección de objetos ha permitido despedirse de las búsquedas exhaustivas y, al igual que la intuición humana,máquinas verdaderamente dotadas con la esencia del pensamiento en tiempo real.
![]()
Antes del nacimiento de YOLO, el campo de la visión por computadora había sido dominado por la arquitectura de dos etapas.un algoritmo primero tuvo que extraer miles de propuestas de región, y luego clasificarlos uno por uno. The genius of YOLO lies in that it completely overturned this cumbersome "proposal-then-verification" process and reconstructed object detection from a classification task into an end-to-end regression problem.
Cuando ingresas una imagen en la red YOLO, corta el nudo gordiano dividiendo directamente la imagen en una cuadrícula S*S. Cada cuadrícula no es solo una porción de la imagen,pero también un punto característica en el tensor de salida de la red.
Predicción de tensores integrados: Cada cuadrícula predice directamente la información de coordenadas (x, y, w, h) de múltiples cajas de delimitación, así como una puntuación de confianza que indica si un objeto está presente aquí.
Clasificación y localización paralelas: Mientras predice coordenadas, cada cuadrícula también calcula un conjunto de probabilidades de clase.Esto significa que la localización y la clasificación se completan de una manera completamente paralela dentro de la salida de la misma capa de la red neuronal.
Acoplamiento de características globales: Gracias al diseño de extremo a extremo de la red, tiene acceso a la información global de toda la imagen al tomar decisiones.En comparación con los algoritmos tradicionales que sólo se centran en las propuestas de la región local, YOLO's tal "vista de imagen grande" le permite identificar el ruido de fondo con mayor precisión, por lo que es menos probable que clasifique erróneamente las nubes de forma irregular como aves.
Muchas personas piensan que la IA está lejos, pero honestamente, YOLO ha estado "competindo ferozmente" en esquinas que no vemos.
Sitios de construcción inteligentes: En los sitios de construcción de túneles llenos de polvo o con una iluminación extremadamente pobre, YOLOv9 demuestra capacidades de extracción de características extremadamente fuertes.
Detección del cumplimiento por comportamiento: No sólo puede identificar la presencia o ausencia de cascos de seguridad y chalecos reflectantes, sino también determinar si se usan correctamente (por ejemplo, si la correa del casco está atada, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de la luz, si el vehículo está equipado con un sistema de protección de protección de la luz, si el vehículo está equipado con un sistema de protección de proteccióno la cremallera está completamente cerrada) a través de características detalladas.
Procesamiento de alta concurrencia: admite detección a gran escala en tiempo real de más de 50 personas por fotograma.
Gobierno urbano: La gestión urbana y los escenarios de gobernanza integral imponen altos requisitos a la capacidad antiinterferencia de los algoritmos.
Gobernanza estática: Combinando la comparación de imágenes históricas y la segmentación semántica, el sistema puede identificar con precisión las estructuras ilegales recién construidas, la acumulación de basura o la ocupación de carreteras para empresas,y incluso cuantificar automáticamente el área y el volumen de violaciones.
Seguridad dinámica: Basado en el reconocimiento de posturas (OpenPose/YOLO-Pose), el sistema puede capturar de forma sensible comportamientos anormales como "persona que cae al suelo" y vincularse con los sistemas médicos de emergencia.,utiliza un algoritmo de agrupación de densidades (DBSCAN) para controlar la densidad de la multitud en tiempo real y prevenir los riesgos de estampida.
Inspección de la potencia:Fusión multimodalen zonas de alto riesgo como los túneles subterráneos de cable o las torres de transmisión de alto voltaje: mediante la fusión de la nube de puntos lidar y la imagen térmica infrarroja,puede realizar la detección sin contacto de calentamiento anormal del transformador, corriente de fuga del retenedor o inclinación de la torre (con una precisión de 0,1°) desde una distancia de 30 metros.
Juzgado automático de defectos: Para peligros ocultos menores como daños en el cable y corrosión del soporte, la precisión de reconocimiento supera el 92%, lo que mejora en gran medida la eficiencia de operación y mantenimiento y garantiza la seguridad del personal.
Prevención de incendios forestales: Para la detección de humo e incendio de forma irregular en grandes áreas, YOLO demuestra una capacidad de respuesta ultra rápida.
Identificación exacta de humo y fuego: Combinando características de imagen y datos de radiación térmica, puede distinguir incendios forestales, incendios de campaña o quema de tierras agrícolas en 2 segundos,con una capacidad antiinterferencia extremadamente fuerte contra nubes y sombras de vegetación.
Conocimiento de la situación: Integrando información geográfica GIS y modelo forestal aleatorio, el sistema no sólo puede detectar incendios, sino también predecir la tendencia de propagación basada en la velocidad del viento y el terreno,proporcionar mapas visuales para la programación in situ.
Optimización de potencia de computación para RK3588/RK3576
Sinceramente, el benchmarking en una tarjeta gráfica es solo un calentamiento. Lo que realmente permite que YOLO se despliegue e implemente es portarlo a SoCs de tamaño de chip como Rockchip RK3588 o RK3576.Esto no es sólo una simple migración de códigoPara lograr la detección de objetos a nivel de milisegundo en estas plataformas SoC, generalmente se requieren los siguientes pasos:
"Traducir" el modelo:El NPU (Neural Processing Unit) del chip tiene sus propias especificaciones y no puede interpretar los archivos nativos de entrenamiento.pt de PyTorch.luego desmontado y reconstruido en el.rknn formato que el chip puede entender observando cómo los operadores complejos se reorganizan en las rutas de cálculo favorecidas por la NPU.
"Aguace" mediante compresión: Los modelos nativos FP32 (32 bits con coma flotante) tienen un enorme número de parámetros, lo que impone una carga pesada en el ancho de banda y el almacenamiento de los chips integrados.Los algoritmos de cuantización comprimen pesos y activaciones de 32 bits a 8 bitsEsto no solo alivia la presión del ancho de banda DDR, sino que también reduce efectivamente el consumo de energía computacional.
Optimización de la transferencia de datos: Incluso si el modelo es lo suficientemente rápido, la NPU todavía "se quedará inactiva" si la CPU está ocupada moviendo flujos de video en la memoria.La tecnología de copia cero DMA-BUF se utiliza para permitir el intercambio de datos de transmisión de video en la memoria de video entre el ISPCombinado con la lógica paralela para la inferencia asíncrona,el siguiente cuadro ya está en cola para procesamiento mientras que el cuadro actual todavía está experimentando operaciones de convoluciónEsta coordinación perfecta es lo que permite que las transmisiones de video en tiempo real funcionen sin problemas en el chip.
¿Qué versión de YOLO es su "opción"?
Cuando se despliegan en dispositivos integrados, la elección de la versión no se trata simplemente de "perseguir lo último"; en cambio, requiere equilibrar el gasto general de potencia de computación, la compatibilidad con el operador,y los requisitos de exactitud de las tareas específicas.
Como la versión con el ecosistema más maduro, YOLOv5 cuenta con una estabilidad extremadamente alta y una cobertura de despliegue en el sector industrial.
YOLOv8 introduce un mecanismo sin anclaje, logrando una arquitectura unificada para la detección, segmentación y estimación de pose (Pose).
YOLOv10 ha logrado avances revolucionarios en la solución del cuello de botella del posprocesamiento en la detección en tiempo real.
Estos representan las últimas iteraciones tecnológicas para escenarios complejos, centrándose en capturar características de grano fino.
La evolución de los algoritmos ha reducido el umbral de la percepción, mientras que la popularización de los chips ha ampliado los límites de la inteligencia.