Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
เมื่อคุณอยู่ตรงทางแยก คุณเพียงแค่ต้องเหลือบมองเพียงครู่เดียว สมองของคุณก็จะติดป้ายกำกับทุกสิ่งทุกอย่างที่คุณมองเห็นในทันที: รถเมล์สีแดงคันนั้นกำลังแล่นเข้าป้าย เด็กบนทางเท้ากำลังวิ่ง และรถสกู๊ตเตอร์ส่งอาหารกำลังวิ่งผ่านไปด้านข้าง ปฏิกิริยาที่เกือบจะเป็นสัญชาตญาณนี้ครั้งหนึ่งเคยเป็นเรื่องยากมากสำหรับคอมพิวเตอร์ที่จะเรียนรู้ จนกระทั่ง YOLO เข้ามา คุณมองเพียงครั้งเดียว (You Only Look Once) — ในขณะที่ภาพถูกจับ การจำแนกประเภทและการระบุตำแหน่งจะเสร็จสิ้นพร้อมกัน ทำให้การตรวจจับวัตถุบอกลาการค้นหาที่ละเอียดถี่ถ้วน และเช่นเดียวกับสัญชาตญาณของมนุษย์ ทำให้เครื่องจักรมีแก่นแท้ของการคิดแบบเรียลไทม์อย่างแท้จริง
![]()
ก่อนที่จะมี YOLO สาขาคอมพิวเตอร์วิทัศน์ถูกครอบงำมานานโดยสถาปัตยกรรมแบบสองขั้นตอน ในตอนนั้น เพื่อตรวจจับวัตถุ อัลกอริทึมจะต้องดึงข้อเสนอแนะของภูมิภาคหลายพันรายการออกมา จากนั้นจึงจำแนกประเภททีละรายการ อัจฉริยภาพของ YOLO อยู่ที่การพลิกกระบวนการ "ข้อเสนอแนะแล้วตรวจสอบ" ที่ยุ่งยากนี้อย่างสิ้นเชิง และสร้างการตรวจจับวัตถุขึ้นใหม่จากงานจำแนกประเภทให้เป็นปัญหาการถดถอยแบบ end-to-end
เมื่อคุณป้อนภาพลงในเครือข่าย YOLO มันจะตัดปม Gordian โดยการแบ่งภาพออกเป็นตาราง S*S โดยตรง แต่ละตารางไม่เพียงแต่เป็นส่วนหนึ่งของภาพเท่านั้น แต่ยังเป็นจุดเด่นในเทนเซอร์เอาต์พุตของเครือข่ายอีกด้วย
การทำนายเทนเซอร์แบบบูรณาการ: แต่ละตารางทำนายข้อมูลพิกัด (x, y, w, h) ของกล่องขอบเขตหลายกล่องโดยตรง รวมถึงคะแนนความเชื่อมั่นที่ระบุว่ามีวัตถุอยู่หรือไม่
การจำแนกประเภทและการระบุตำแหน่งแบบขนาน: ในขณะที่ทำนายพิกัด แต่ละตารางยังคำนวณชุดความน่าจะเป็นของคลาส ซึ่งหมายความว่าการระบุตำแหน่งและการจำแนกประเภทจะเสร็จสิ้นในลักษณะขนานเต็มรูปแบบภายในเอาต์พุตของเลเยอร์เดียวกันของเครือข่ายประสาท
การเชื่อมต่อคุณสมบัติระดับโลก: ด้วยการออกแบบ end-to-end ของเครือข่าย ทำให้สามารถเข้าถึงข้อมูลระดับโลกของภาพทั้งหมดเมื่อทำการตัดสินใจ เมื่อเทียบกับอัลกอริทึมแบบดั้งเดิมที่เน้นเฉพาะข้อเสนอแนะของภูมิภาคในท้องถิ่น YOLO ที่มี "มุมมองขนาดใหญ่" ดังกล่าวทำให้สามารถระบุสัญญาณรบกวนพื้นหลังได้อย่างแม่นยำยิ่งขึ้น ทำให้มีโอกาสน้อยที่จะจำแนกเมฆที่มีรูปร่างผิดปกติว่าเป็นนก
หลายคนคิดว่า AI นั้นอยู่ไกลตัว แต่พูดตามตรง YOLO ได้ "แข่งขันกันอย่างดุเดือด" มานานแล้วในมุมที่เรามองไม่เห็น
ไซต์ก่อสร้างอัจฉริยะ: ในไซต์ก่อสร้างอุโมงค์ที่เต็มไปด้วยฝุ่นหรือมีแสงสว่างไม่ดีอย่างยิ่ง YOLOv9 แสดงให้เห็นถึงความสามารถในการดึงคุณสมบัติที่แข็งแกร่งอย่างยิ่ง
การตรวจจับการปฏิบัติตามพฤติกรรม: ไม่เพียงแต่สามารถระบุการมีอยู่หรือไม่มีอยู่ของหมวกนิรภัยและเสื้อกั๊กสะท้อนแสงเท่านั้น แต่ยังสามารถพิจารณาได้ว่ามีการสวมใส่อย่างถูกต้องหรือไม่ (เช่น สายรัดหมวกนิรภัยถูกรัดหรือไม่ หรือซิปถูกรูดจนสุด) ผ่านคุณสมบัติโดยละเอียด
การประมวลผลพร้อมกันสูง: รองรับการตรวจจับแบบเรียลไทม์ในวงกว้างของคนมากกว่า 50 คนต่อเฟรม เมื่อรวมกับเทคโนโลยีการถ่ายภาพอินฟราเรด ทำให้ตระหนักถึงการก้าวกระโดดจากการ "ตรวจสอบด้วยตนเอง" ไปสู่ "การเตือนภัยล่วงหน้าตลอด 24 ชั่วโมงทุกวัน"
การกำกับดูแลเมือง: สถานการณ์การจัดการเมืองและการกำกับดูแลที่ครอบคลุมกำหนดข้อกำหนดสูงเกี่ยวกับความสามารถในการป้องกันการรบกวนของอัลกอริทึม
การกำกับดูแลแบบคงที่: ด้วยการรวมการเปรียบเทียบภาพในอดีตและการแบ่งส่วนความหมาย ระบบสามารถระบุโครงสร้างที่ผิดกฎหมายที่สร้างขึ้นใหม่ การสะสมขยะ หรือการครอบครองถนนเพื่อธุรกิจได้อย่างแม่นยำ และยังสามารถวัดพื้นที่และปริมาณของการละเมิดได้โดยอัตโนมัติ
ความปลอดภัยแบบไดนามิก: จากการจดจำท่าทาง (OpenPose/YOLO-Pose) ระบบสามารถจับพฤติกรรมที่ผิดปกติ เช่น "คนล้มลงกับพื้น" ได้อย่างละเอียดอ่อน และเชื่อมโยงกับระบบการแพทย์ฉุกเฉิน ในฝูงชนหนาแน่น ระบบใช้ขั้นตอนวิธีคลัสเตอร์ความหนาแน่น (DBSCAN) เพื่อตรวจสอบความหนาแน่นของฝูงชนแบบเรียลไทม์และป้องกันความเสี่ยงจากการเหยียบกัน
การตรวจสอบพลังงาน: การหลอมรวมแบบหลายรูปแบบในพื้นที่ที่มีความเสี่ยงสูง เช่น อุโมงค์สายเคเบิลใต้ดินหรือเสาส่งไฟฟ้าแรงสูง: ด้วยการหลอมรวมเมฆจุด LiDAR และการถ่ายภาพความร้อนอินฟราเรด สามารถทำการตรวจจับแบบไม่สัมผัสของการให้ความร้อนผิดปกติของหม้อแปลง กระแสไฟรั่วของตัวจับกระแสเกิน หรือการเอียงของเสา (มีความแม่นยำ 0.1°) จากระยะ 30 เมตร
การตัดสินข้อบกพร่องอัตโนมัติ: สำหรับอันตรายที่ซ่อนอยู่เล็กน้อย เช่น ความเสียหายของสายเคเบิลและการกัดกร่อนของตัวยึด ความแม่นยำในการจดจำเกิน 92% ซึ่งช่วยเพิ่มประสิทธิภาพการดำเนินงานและการบำรุงรักษาอย่างมาก และรับประกันความปลอดภัยของบุคลากร
การป้องกันไฟป่า: สำหรับการตรวจจับควันและไฟในพื้นที่ขนาดใหญ่และมีรูปร่างผิดปกติ YOLO แสดงให้เห็นถึงความสามารถในการตอบสนองที่รวดเร็วเป็นพิเศษ
การระบุควันและไฟอย่างแม่นยำ: ด้วยการรวมคุณสมบัติของภาพและข้อมูลการแผ่รังสีความร้อน สามารถแยกแยะไฟป่า แคมป์ไฟ หรือการเผาไร่นาภายใน 2 วินาที โดยมีความสามารถในการป้องกันการรบกวนที่แข็งแกร่งอย่างยิ่งกับเมฆและเงาของพืชพันธุ์
การรับรู้สถานการณ์: การรวมข้อมูลทางภูมิศาสตร์ GIS และแบบจำลองป่าแบบสุ่ม ระบบไม่เพียงแต่สามารถตรวจจับไฟไหม้ได้เท่านั้น แต่ยังทำนายแนวโน้มการแพร่กระจายตามความเร็วลมและภูมิประเทศ โดยให้แผนผังภาพสำหรับการจัดตารางเวลาในสถานที่
การเพิ่มประสิทธิภาพพลังการประมวลผลขั้นสูงสุดสำหรับ RK3588/RK3576
พูดตามตรง การวัดประสิทธิภาพบนการ์ดแสดงผลเป็นเพียงการวอร์มอัพ สิ่งที่ทำให้ YOLO สามารถนำไปใช้งานและนำไปใช้ได้จริงคือการพอร์ตลงใน SoCs ขนาดชิป เช่น RK3588 หรือ RK3576 ของ Rockchip นี่ไม่ใช่แค่การโยกย้ายโค้ดง่ายๆ แต่เป็นการ "ใช้ประโยชน์อย่างมาก" จากพลังการประมวลผล แบนด์วิดท์ และหน่วยความจำ ในการตรวจจับวัตถุในระดับมิลลิวินาทีบนแพลตฟอร์ม SoC เหล่านี้ โดยทั่วไปจะต้องมีขั้นตอนต่อไปนี้:
"แปล" โมเดล: NPU (Neural Processing Unit) ของชิปมีข้อกำหนดของตัวเองและไม่สามารถตีความไฟล์การฝึกอบรม .pt ดั้งเดิมของ PyTorch ได้ การใช้ RKNN-Toolkit2 โมเดลจะถูกแปลงเป็นรูปแบบ ONNX จากนั้นจึงถูกแยกชิ้นส่วนและสร้างใหม่เป็นรูปแบบ .rknn ที่ชิปสามารถเข้าใจได้ — ดูตัวดำเนินการที่ซับซ้อนถูกจัดเรียงใหม่ในเส้นทางการคำนวณที่ NPU ชอบ
"ลดขนาด" ผ่านการบีบอัด: โมเดล FP32 (จุดลอยตัว 32 บิต) ดั้งเดิมมีพารามิเตอร์จำนวนมาก ซึ่งเป็นภาระหนักสำหรับแบนด์วิดท์และที่เก็บข้อมูลของชิปแบบฝังตัว อัลกอริทึมการหาปริมาณจะบีบอัดน้ำหนักและการเปิดใช้งานจาก 32 บิตเป็น 8 บิต ลดการใช้หน่วยความจำลง 75% ซึ่งไม่เพียงแต่ช่วยลดแรงกดดันแบนด์วิดท์ DDR เท่านั้น แต่ยังช่วยลดการใช้พลังงานในการคำนวณได้อย่างมีประสิทธิภาพอีกด้วย
การเพิ่มประสิทธิภาพ "การถ่ายโอนข้อมูล": แม้ว่าโมเดลจะเร็วพอ NPU ก็ยังคง "นั่งเฉยๆ" หาก CPU ยุ่งอยู่กับการย้ายสตรีมวิดีโอในหน่วยความจำ เพื่อหลีกเลี่ยงการเสียเวลาแม้แต่มิลลิวินาทีเดียว เทคโนโลยี zero-copy DMA-BUF ถูกนำมาใช้เพื่อเปิดใช้งานการแชร์ข้อมูลสตรีมวิดีโอในหน่วยความจำวิดีโอระหว่าง ISP, GPU และ NPU ขจัดค่าใช้จ่ายในการคัดลอก CPU ออกไปอย่างสิ้นเชิง เมื่อรวมกับตรรกะแบบขนานสำหรับการอนุมานแบบอะซิงโครนัส เฟรมถัดไปจะถูกจัดคิวสำหรับการประมวลผลแล้วในขณะที่เฟรมปัจจุบันยังคงอยู่ระหว่างการดำเนินการคอนโวลูชัน การประสานงานที่ราบรื่นนี้คือสิ่งที่ทำให้สตรีมวิดีโอแบบเรียลไทม์ทำงานได้อย่างราบรื่นบนชิป
YOLO เวอร์ชันใดคือ "ตัวเลือกที่คุณเลือก"?
เมื่อปรับใช้บนอุปกรณ์ฝังตัว การเลือกเวอร์ชันไม่ใช่แค่เรื่องของการ "ไล่ตามรุ่นล่าสุด" แต่ต้องสร้างสมดุลระหว่างค่าใช้จ่ายด้านพลังการประมวลผล ความเข้ากันได้ของตัวดำเนินการ และข้อกำหนดด้านความแม่นยำของงานเฉพาะ
ในฐานะที่เป็นเวอร์ชันที่มีระบบนิเวศน์ที่ครบถ้วนที่สุด YOLOv5 มีความเสถียรและความครอบคลุมในการปรับใช้สูงมากในภาคอุตสาหกรรม
YOLOv8 แนะนำกลไกแบบ Anchor-free ทำให้ได้สถาปัตยกรรมแบบครบวงจรสำหรับการตรวจจับ การแบ่งส่วน และการประมาณท่าทาง (Pose)
YOLOv10 ได้ก้าวหน้าครั้งสำคัญในการจัดการกับปัญหาคอขวดหลังการประมวลผลในการตรวจจับแบบเรียลไทม์
สิ่งเหล่านี้แสดงถึงการทำซ้ำทางเทคโนโลยีล่าสุดสำหรับสถานการณ์ที่ซับซ้อน โดยเน้นที่การจับภาพคุณสมบัติแบบละเอียด
วิวัฒนาการของอัลกอริทึมได้ลดเกณฑ์สำหรับการรับรู้ ในขณะที่ความนิยมของชิปได้ขยายขอบเขตของสติปัญญา