Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
تصور کنید که شما در حال کار بر روی یک پروژه هوش مصنوعی با RK3588 هستید: جریان ویدئویی دوربین نیاز به انجام تشخیص چهره در زمان واقعی و تشخیص خودرو دارد، در حالی که از نمایش UI، آپلود داده،و پردازش منطق تجاریمتوجه می شوید: سقوط قاب زمانی رخ می دهد که اشیاء زیادی در قاب وجود داشته باشند، مدل های بزرگ به راحتی کار نمی کنند و دمای آن به شدت افزایش می یابد.
در این مرحله، مردم معمولا می گویند: "مدل شما خیلی بزرگ است" 6TOPS RK3588 کافی نیست. "
اما آیا این واقعاً کمبود قدرت محاسباتی است؟ آیا تا به حال تعجب کرده اید: چرا یک NPU 6TOPS هنوز هنگام اجرای یک مدل 4TOPS دچار کاهش فریم و تاخیر می شود؟پاسخ در سه ابعاد قدرت محاسباتی NPU نهفته است:حداکثر عملکرد (TOPS),دقت (INT8/FP16)وبهره وری (عرض باند).
شما خواهید دید که تراشه های مختلف بر مشخصات NPU خود تأکید می کنند، با یک پارامتر اصلی که به وضوح نشان داده شده است: قدرت محاسباتی NPU: X TOPS. نمونه هایی از RK3588-6TOPS، RK3576-6TOPS،RK1820-20TOPS، Hi3403V100-10TOPS، Hi3519DV500-2.5TOPS، Jetson Orin Nano-20/40TOPS، Jetson Orin NX-70/100TOPS، و غیره...
"ترا": نمایانگر 1012 است
عملیات در ثانیه: به تعداد کل عملیات هوش مصنوعی اشاره دارد که NPU می تواند در یک ثانیه انجام دهد. به عبارت ساده، 1 TOPS به این معنی است که NPU می تواند 1 تریلیون (1012) عملیات در ثانیه را انجام دهد.
![]()
تعداد کل واحدهای MAC هسته محاسبات شبکه عصبی است در لایه های پیچیدگی و لایه های کاملا متصلمحاسبات اصلی شامل ضرب داده های ورودی با وزنه ها و سپس جمع آوری نتایج است.
فلسفه طراحی یک NPU این است که دارای مجموعه ای بسیار بزرگ از واحدهای موازی MAC باشد. یک تراشه NPU ممکن است هزاران یا حتی ده ها هزار واحد MAC داشته باشد.که می تواند به طور همزمان کار کند تا به محاسبات موازی در مقیاس بزرگ برسد.
هرچه واحدهای MAC بیشتر باشند، مقدار محاسباتی که NPU می تواند در یک چرخه ساعت انجام دهد بیشتر است.
فرکانس ساعت: تعداد چرخه هایی را که تراشه NPU و واحدهای MAC آن در ثانیه کار می کنند تعیین می کند (در هرتز، هرتز اندازه گیری می شود).فرکانس بالاتر اجازه می دهد تا آرایه MAC برای انجام عملیات چند برابر بیشتر در هر واحد زمانهنگامی که تولید کنندگان TOPS را اعلام می کنند، از حداکثر فرکانس عملیاتی NPU استفاده می کنند (یعنی حداکثر فرکانس قابل دستیابی).
عملیات در هر MAC: یک عملیات کامل MAC در واقع شامل یک ضرب و یک جمع است. برای هماهنگی با روش سنتی FLOPS (عملیات نقطه شناور در هر ثانیه) ،بسیاری از استانداردهای محاسباتی یک عملیات MAC را به عنوان 2 عملیات اساسی (1 برای ضرب و 1 برای جمع) حساب می کنند.
فاکتور دقت: واحدهای MAC یک NPU برای پردازش داده های کم دقت (به عنوان مثال، INT8) بهینه شده اند.
نسبت سرعت افزوده ساده INT8 در مقابل FP32: از آنجایی که 32 بیت / 8 بیت = 4 ، یک واحد FP32 واحد می تواند از نظر نظری 4 برابر بیشتر عملیات را در یک چرخه انجام دهد ، هنگامی که به محاسبات INT8 تغییر می کند.,اگر TOPS تولید کننده بر اساس INT8 محاسبه شود، باید با نسبت سرعت مرتبط با دقت ضرب شود. به همین دلیل TOPS INT8 بسیار بالاتر از TOPS FP32 است.
TOPS حداکثر قدرت محاسباتی نظری را اندازه گیری می کند. در کاربردهای عملی، با توجه به عواملی مانند انتقال داده ها، محدودیت های حافظه و ساختار مدل،قدرت محاسباتی واقعی یک NPU اغلب کمتر از این مقدار اوج است.
![]()
قدرت محاسباتی به ما می گوید که NPU چقدر سریع کار می کند، در حالی که دقت محاسباتی به ما می گوید که چقدر دقیق کار می کند. دقت یکی دیگر از ابعاد کلیدی عملکرد NPU است،تعیین تعداد بیت های مورد استفاده و محدوده نمایش داده ها در طول محاسبه.
در همان سطح TOPS، سرعت محاسباتی واقعی INT8 بسیار سریعتر از FP32 است. این به این دلیل است که واحدهای MAC NPU می توانند داده های 8 بیتی را به طور همزمان پردازش کنند و عملیات بیشتری انجام دهند.
NPU TOPS که توسط تولید کنندگان ادعا می شود معمولاً بر اساس دقت INT8 است. هنگام مقایسه، اطمینان حاصل کنید که TOPS را با همان دقت مقایسه می کنید.
![]()
وقتی یک NPU را می بینید که ادعا می کند 20 TOPS (INT8) است، باید درک کنید:
قدرت محاسباتی NPU (TOPS) شاخص سرعت آن است، در حالی که دقت محاسباتی (به عنوان مثال، INT8) کلید کارایی و کاربرد آن است.تولید کنندگان به طور کلی با هدف به حداکثر رساندن INT8 TOPS در حالی که حفظ از دست دادن دقت قابل قبول، برای دستیابی به عملکرد نتیجه گیری هوش مصنوعی با قدرت کم و کارایی بالا.