Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
عندما تقف عند مفترق طرق، فإنك تحتاج فقط إلى نظرة خاطفة سريعة لكي يقوم دماغك بتصنيف كل شيء في مجال رؤيتك على الفور: تلك الحافلة الحمراء تتجه إلى المحطة، والطفل على الرصيف يركض، والدراجة البخارية لتوصيل الطعام تسرع على الجانب. كان هذا التفاعل البديهي تقريبًا صعبًا للغاية على أجهزة الكمبيوتر لتعلمه. كان ذلك حتى ظهر YOLO. أنت تنظر مرة واحدة فقط - في اللحظة التي يتم فيها التقاط صورة، يتم إكمال التصنيف والتحديد في وقت واحد. سمح ذلك باكتشاف الكائنات بتوديع عمليات البحث الشاملة، ومثل الحدس البشري تمامًا، فقد منح الآلات حقًا جوهر التفكير في الوقت الفعلي.
![]()
قبل ولادة YOLO، هيمنت العمارة ذات المرحلتين على مجال رؤية الكمبيوتر لفترة طويلة. في ذلك الوقت، لاكتشاف كائن ما، كان على الخوارزمية أولاً استخراج آلاف مقترحات المنطقة، ثم تصنيفها واحدة تلو الأخرى. تكمن عبقرية YOLO في أنه قلب تمامًا هذه العملية المرهقة المتمثلة في "الاقتراح ثم التحقق" وأعاد بناء اكتشاف الكائنات من مهمة تصنيف إلى مشكلة انحدار شاملة.
عندما تقوم بإدخال صورة في شبكة YOLO، فإنها تقطع العقدة الغوردية عن طريق تقسيم الصورة مباشرة إلى شبكة S*S. كل شبكة ليست مجرد شريحة من الصورة، ولكنها أيضًا نقطة ميزة في موتر إخراج الشبكة.
توقع الموتر المتكامل: تتوقع كل شبكة مباشرة معلومات الإحداثيات (x, y, w, h) لمربعات الإحاطة المتعددة، بالإضافة إلى درجة ثقة تشير إلى ما إذا كان الكائن موجودًا هنا.
التصنيف والتحديد المتوازيان: أثناء التنبؤ بالإحداثيات، تحسب كل شبكة أيضًا مجموعة من احتمالات الفئة. هذا يعني أن التحديد والتصنيف يكتملان بطريقة متوازية تمامًا داخل إخراج نفس طبقة الشبكة العصبية.
اقتران الميزات العالمية: بفضل التصميم الشامل للشبكة، يمكنها الوصول إلى المعلومات العالمية للصورة بأكملها عند اتخاذ القرارات. بالمقارنة مع الخوارزميات التقليدية التي تركز فقط على مقترحات المنطقة المحلية، فإن "الرؤية الكبيرة" لـ YOLO تمكنها من تحديد ضوضاء الخلفية بدقة أكبر، مما يجعلها أقل عرضة لتصنيف السحب ذات الأشكال غير المنتظمة على أنها طيور.
يعتقد الكثير من الناس أن الذكاء الاصطناعي بعيد المنال، ولكن بصراحة، كان YOLO "يتنافس بشدة" منذ فترة طويلة في الزوايا التي لا نراها.
مواقع البناء الذكية: في مواقع بناء الأنفاق المليئة بالغبار أو ذات الإضاءة الضعيفة للغاية، تُظهر YOLOv9 قدرات استخلاص ميزات قوية للغاية.
الكشف عن الامتثال السلوكي: لا يمكنها فقط تحديد وجود أو عدم وجود خوذات أمان وسترات عاكسة، ولكنها تحدد أيضًا ما إذا كانت هذه الأشياء تُرتدى بشكل صحيح (على سبيل المثال، ما إذا كان حزام الخوذة مثبتًا، أو ما إذا كان السحاب مغلقًا بالكامل) من خلال الميزات التفصيلية.
معالجة عالية التزامن: تدعم الكشف في الوقت الفعلي على نطاق واسع لأكثر من 50 شخصًا لكل إطار. جنبًا إلى جنب مع تقنية التصوير بالأشعة تحت الحمراء، فإنها تحقق قفزة من "المراقبة اليدوية" إلى "التحذير التلقائي على مدار الساعة طوال أيام الأسبوع".
الحوكمة الحضرية: تفرض سيناريوهات الإدارة الحضرية والحوكمة الشاملة متطلبات عالية على قدرة الخوارزميات على مقاومة التداخل.
الحوكمة الثابتة: من خلال الجمع بين مقارنة الصور التاريخية والتقسيم الدلالي، يمكن للنظام تحديد الهياكل غير القانونية التي تم بناؤها حديثًا بدقة، وتراكم القمامة أو احتلال الطرق للأعمال التجارية، وحتى تحديد مساحة وحجم الانتهاكات تلقائيًا.
الأمن الديناميكي: استنادًا إلى التعرف على الوضعية (OpenPose/YOLO-Pose)، يمكن للنظام التقاط السلوكيات غير الطبيعية مثل "سقوط الشخص على الأرض" بشكل حساس والارتباط بأنظمة الطوارئ الطبية. في الحشود الكثيفة، فإنه يستخدم خوارزمية تجميع الكثافة (DBSCAN) لمراقبة كثافة الحشود في الوقت الفعلي ومنع مخاطر التدافع.
فحص الطاقة: دمج متعدد الوسائط في المناطق عالية الخطورة مثل أنفاق الكابلات الأرضية أو أبراج نقل الجهد العالي: من خلال دمج سحابة نقاط lidar والتصوير الحراري بالأشعة تحت الحمراء، يمكنه إجراء الكشف غير التلامسي عن التسخين غير الطبيعي للمحول، أو تيار تسرب مانع الصواعق أو إمالة البرج (بدقة 0.1 درجة) من مسافة 30 مترًا.
الحكم التلقائي على العيوب: بالنسبة للمخاطر الخفية البسيطة مثل تلف الكابلات وتآكل الدعامة، تتجاوز دقة التعرف 92٪، مما يحسن بشكل كبير كفاءة التشغيل والصيانة ويضمن سلامة الأفراد.
الوقاية من حرائق الغابات: للكشف عن الدخان والنار على مساحة كبيرة وغير منتظمة الشكل، تُظهر YOLO قدرة استجابة فائقة السرعة.
تحديد الدخان والنار بدقة: من خلال الجمع بين ميزات الصورة وبيانات الإشعاع الحراري، يمكنها التمييز بين حرائق الغابات أو المخيمات أو حرق الأراضي الزراعية في غضون ثانيتين، مع قدرة قوية للغاية على مقاومة التداخل ضد السحب وظلال الغطاء النباتي.
الوعي بالموقف: من خلال دمج المعلومات الجغرافية لنظام المعلومات الجغرافية ونموذج الغابات العشوائية، لا يمكن للنظام اكتشاف الحرائق فحسب، بل يمكنه أيضًا التنبؤ باتجاه الانتشار بناءً على سرعة الرياح والتضاريس، مما يوفر خرائط مرئية للجدولة في الموقع.
تحسين قوة الحوسبة المطلقة لـ RK3588/RK3576
بصراحة، فإن القياس على بطاقة رسومات هو مجرد إحماء. ما يمكّن YOLO حقًا من النشر والتنفيذ هو نقله إلى SoCs بحجم الشريحة مثل RK3588 أو RK3576 من Rockchip. هذه ليست مجرد ترحيل كود بسيط، بل هو "استغلال شديد" لقوة الحوسبة وعرض النطاق الترددي والذاكرة. لتحقيق اكتشاف الكائنات على مستوى المللي ثانية على منصات SoC هذه، يلزم عادةً اتخاذ الخطوات التالية:
"ترجمة" النموذج: تحتوي وحدة المعالجة العصبية (NPU) الخاصة بالشريحة على مواصفاتها الخاصة ولا يمكنها تفسير ملفات التدريب .pt الأصلية لـ PyTorch. باستخدام RKNN-Toolkit2، يتم تحويل النموذج إلى تنسيق ONNX، ثم يتم تفكيكه وإعادة بنائه في تنسيق .rknn الذي يمكن للشريحة فهمه - ومشاهدة المشغلين المعقدين وهم يعاد ترتيبهم في مسارات الحساب التي تفضلها وحدة المعالجة العصبية.
"تقليص الحجم" عبر الضغط: تحتوي النماذج الأصلية FP32 (نقطة عائمة 32 بت) على عدد هائل من المعلمات، مما يفرض عبئًا ثقيلاً على عرض النطاق الترددي والتخزين للشرائح المضمنة. تعمل خوارزميات التكميم على ضغط الأوزان والتنشيطات من 32 بت إلى 8 بت، مما يقلل من استخدام الذاكرة بنسبة 75٪ كاملة. هذا لا يخفف فقط من ضغط عرض النطاق الترددي DDR ولكنه يقلل أيضًا بشكل فعال من استهلاك الطاقة الحسابية.
"تحسين نقل البيانات": حتى إذا كان النموذج سريعًا بما فيه الكفاية، فإن وحدة المعالجة العصبية ستظل "خاملة" إذا كان وحدة المعالجة المركزية مشغولة بنقل تدفقات الفيديو في الذاكرة. لتجنب إضاعة مللي ثانية واحدة، يتم استخدام تقنية DMA-BUF zero-copy لتمكين مشاركة بيانات تدفق الفيديو في ذاكرة الفيديو بين ISP و GPU و NPU، مما يلغي تمامًا حمل نسخ وحدة المعالجة المركزية. جنبًا إلى جنب مع المنطق المتوازي للاستدلال غير المتزامن، يكون الإطار التالي بالفعل في قائمة الانتظار للمعالجة بينما لا يزال الإطار الحالي يخضع لعمليات الالتواء. هذا التنسيق السلس هو ما يسمح لتدفقات الفيديو في الوقت الفعلي بالعمل بسلاسة على الشريحة.
أي إصدار YOLO هو "خيارك المفضل"؟
عند النشر على الأجهزة المضمنة، فإن اختيار الإصدار لا يتعلق ببساطة بـ "مطاردة الأحدث"؛ بدلاً من ذلك، يتطلب تحقيق التوازن بين عبء قوة الحوسبة وتوافق المشغل ومتطلبات الدقة لمهام معينة.
بصفته الإصدار الذي يتمتع بأكثر نظام بيئي ناضج، يمتلك YOLOv5 استقرارًا عاليًا للغاية وتغطية نشر في القطاع الصناعي.
يقدم YOLOv8 آلية بدون Anchor، مما يحقق بنية موحدة للكشف والتقسيم وتقدير الوضعية (Pose).
أحرز YOLOv10 تقدمًا كبيرًا في معالجة عنق الزجاجة للمعالجة اللاحقة في الكشف في الوقت الفعلي.
تمثل هذه التكرارات التكنولوجية الأحدث للسيناريوهات المعقدة، مع التركيز على التقاط الميزات الدقيقة.
أدى تطور الخوارزميات إلى خفض عتبة الإدراك، بينما أدى انتشار الرقائق إلى توسيع حدود الذكاء.