Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
একটি রাস্তার ছেদঘরে দাঁড়িয়ে, আপনার মস্তিষ্কের জন্য কেবল একটি ক্ষণস্থায়ী নজর প্রয়োজন যা আপনার দৃষ্টি ক্ষেত্রের সমস্ত কিছুকে তাত্ক্ষণিকভাবে চিহ্নিত করেঃ যে লাল বাসটি স্টেশনে আসছে,ফুটপাতে থাকা শিশুটি দৌড়াচ্ছেএবং একটি খাদ্য ডেলিভারি স্কুটার পাশ দিয়ে গতি করছে। এই প্রায় স্বজ্ঞাত প্রতিক্রিয়া কম্পিউটারের জন্য শিখতে অত্যন্ত কঠিন ছিল। এটি YOLO আবির্ভূত না হওয়া পর্যন্ত ছিল।আপনি শুধু একবারই দেখেন, যে মুহূর্তে একটি ছবি তোলা হয়।এটি অবজেক্ট ডিটেকশনকে সম্পূর্ণ অনুসন্ধান থেকে বিদায় জানাতে এবং মানুষের স্বজ্ঞানের মতোই,প্রকৃতপক্ষে রিয়েল-টাইম চিন্তাভাবনার সাথে সজ্জিত মেশিন.
![]()
YOLO এর জন্মের আগে, কম্পিউটার ভিউশনের ক্ষেত্রে দীর্ঘদিন ধরে দুই ধাপের আর্কিটেকচারের আধিপত্য ছিল।একটি অ্যালগরিদমকে প্রথমে হাজার হাজার অঞ্চলের প্রস্তাব বের করতে হয়েছিল, এবং তারপর তাদের এক এক করে শ্রেণীবদ্ধ করুন। The genius of YOLO lies in that it completely overturned this cumbersome "proposal-then-verification" process and reconstructed object detection from a classification task into an end-to-end regression problem.
যখন আপনি YOLO নেটওয়ার্কে একটি ইমেজ ইনপুট করেন, এটি সরাসরি একটি S*S গ্রিডে ইমেজ বিভক্ত করে গোর্ডিয়ান নোড কেটে দেয়। প্রতিটি গ্রিড কেবল ইমেজের একটি অংশ নয়,কিন্তু এছাড়াও নেটওয়ার্ক আউটপুট টেনসর একটি বৈশিষ্ট্য বিন্দু.
ইন্টিগ্রেটেড টেনসর পূর্বাভাস: প্রতিটি গ্রিড সরাসরি একাধিক সীমাবদ্ধ বাক্সের সমন্বয় তথ্য (x, y, w, h) এবং এখানে কোনও বস্তু উপস্থিত আছে কিনা তা নির্দেশ করে একটি নির্ভরযোগ্যতা স্কোর পূর্বাভাস দেয়।
সমান্তরাল শ্রেণীবিভাগ এবং স্থানীয়করণ: কোঅর্ডিনেট পূর্বাভাস দেওয়ার সময়, প্রতিটি গ্রিড ক্লাস সম্ভাব্যতার একটি সেটও গণনা করে।এর মানে হল যে স্থানীয়করণ এবং শ্রেণীবিভাগ সম্পূর্ণরূপে সমান্তরাল ভাবে সম্পন্ন হয় একই স্তরের নিউরাল নেটওয়ার্কের আউটপুটের মধ্যে.
গ্লোবাল ফিচার কাপলিং: নেটওয়ার্কের এন্ড-টু-এন্ড ডিজাইনের জন্য ধন্যবাদ, এটি সিদ্ধান্ত গ্রহণের সময় পুরো চিত্রের গ্লোবাল তথ্য অ্যাক্সেস করতে পারে।ঐতিহ্যগত অ্যালগরিদমের তুলনায় যা শুধুমাত্র স্থানীয় অঞ্চলের প্রস্তাবগুলিতে ফোকাস করে, YOLO এর এই ধরনের "বড় ছবির দৃশ্য" এটিকে ব্যাকগ্রাউন্ডের শব্দকে আরো সঠিকভাবে সনাক্ত করতে সক্ষম করে, অনিয়মিত আকৃতির মেঘকে পাখি হিসাবে ভুলভাবে শ্রেণীবদ্ধ করার সম্ভাবনা কম করে।
অনেকের মনে হয় এআই অনেক দূরে, কিন্তু সত্যি বলতে, YOLO দীর্ঘদিন ধরে আমাদের কাছে অদৃশ্য কোণে "কঠোরভাবে প্রতিদ্বন্দ্বিতা" করছে।
স্মার্ট নির্মাণ সাইট: ধুলোতে ভরা বা খুব খারাপ আলোর সাথে টানেল নির্মাণ সাইটগুলিতে, YOLOv9 অত্যন্ত শক্তিশালী বৈশিষ্ট্য নিষ্কাশন ক্ষমতা প্রদর্শন করে।
আচরণগত সম্মতি সনাক্তকরণ: এটি কেবল হেলমেট এবং প্রতিফলক জ্যাকেট ব্যবহার করে তা সনাক্ত করতে পারে না, তবে এটি সঠিকভাবে পরিধান করা হয় কিনা তাও নির্ধারণ করতে পারে (উদাহরণস্বরূপ, হেলমেট স্ট্র্যাপটি বন্ধ আছে কিনা,অথবা জিপার সম্পূর্ণরূপে জিপার হয়) বিস্তারিত বৈশিষ্ট্য মাধ্যমে.
উচ্চ সমান্তরাল প্রক্রিয়াকরণ: এটি প্রতি ফ্রেমে 50 জনেরও বেশি লোকের বড় আকারের রিয়েল-টাইম সনাক্তকরণকে সমর্থন করে। ইনফ্রারেড ইমেজিং প্রযুক্তির সাথে মিলিত, এটি "মানুয়াল পর্যবেক্ষণ" থেকে "24/7 স্বয়ংক্রিয় প্রারম্ভিক সতর্কতা" এ লাফ দেয়।
নগর প্রশাসন: নগর ব্যবস্থাপনা এবং বিস্তৃত প্রশাসনের দৃশ্যকল্পগুলি অ্যালগরিদমগুলির হস্তক্ষেপ-বিরোধী সক্ষমতার উপর উচ্চতর প্রয়োজনীয়তা চাপিয়ে দেয়।
স্ট্যাটিক গভর্নেন্স: ঐতিহাসিক চিত্রের তুলনা এবং শব্দার্থিক বিভাজনকে একত্রিত করে, সিস্টেমটি নতুন নির্মিত অবৈধ কাঠামো, আবর্জনা জমা বা ব্যবসার জন্য রাস্তা দখল সঠিকভাবে সনাক্ত করতে পারে,এবং এমনকি স্বয়ংক্রিয়ভাবে লঙ্ঘনের এলাকা এবং পরিমাণ পরিমাণ.
গতিশীল নিরাপত্তা: পোজ স্বীকৃতির উপর ভিত্তি করে (ওপেনপোজ/ইওএলও-পোজ), সিস্টেম সংবেদনশীলভাবে অস্বাভাবিক আচরণ যেমন "পৃষ্ঠে পড়া ব্যক্তি" ক্যাপচার করতে পারে এবং জরুরী চিকিৎসা সিস্টেমের সাথে লিঙ্ক করতে পারে।,এটি ভিড়ের ঘনত্বকে রিয়েল-টাইমে পর্যবেক্ষণ করতে এবং স্টাম্পেড ঝুঁকি রোধ করতে ঘনত্ব ক্লাস্টারিং অ্যালগরিদম (ডিবিএসসিএএন) ব্যবহার করে।
শক্তি পরিদর্শন:মাল্টিমোডাল ফিউশনউচ্চ ঝুঁকিপূর্ণ এলাকায় যেমন ভূগর্ভস্থ ক্যাবল টানেল বা উচ্চ-ভোল্টেজ ট্রান্সমিশন টাওয়ারঃ লিডার পয়েন্ট ক্লাউড এবং ইনফ্রারেড তাপ ইমেজিং একত্রিত করে,এটি ট্রান্সফরমারের অস্বাভাবিক গরমের অস্পর্শ সনাক্তকরণ পরিচালনা করতে পারে30 মিটার দূরত্ব থেকে, আটকানোর ফাঁস বর্তমান বা টাওয়ারের কুলিং (0.1 ডিগ্রি সঠিকতার সাথে) ।
স্বয়ংক্রিয় ত্রুটি রায়: ক্যাবলের ক্ষতি এবং ব্র্যাকেটের ক্ষয় যেমন ছোট লুকানো বিপদগুলির জন্য, স্বীকৃতির নির্ভুলতা 92% ছাড়িয়ে গেছে, যা অপারেশন এবং রক্ষণাবেক্ষণের দক্ষতা ব্যাপকভাবে উন্নত করে এবং কর্মীদের নিরাপত্তা নিশ্চিত করে।
বনজুই প্রতিরোধ: বড় এলাকার, অনিয়মিত আকৃতির ধোঁয়া এবং আগুন সনাক্তকরণের জন্য, YOLO অতি দ্রুত প্রতিক্রিয়া ক্ষমতা প্রদর্শন করে।
ধোঁয়া ও আগুনের সঠিক সনাক্তকরণ: ইমেজ বৈশিষ্ট্য এবং তাপীয় বিকিরণের তথ্য একত্রিত করে, এটি 2 সেকেন্ডের মধ্যে বন্য আগুন, ক্যাম্পফায়ার বা কৃষিজমি পোড়া পার্থক্য করতে পারে,মেঘ এবং গাছপালার ছায়ার বিরুদ্ধে অত্যন্ত শক্তিশালী বিরোধী হস্তক্ষেপ ক্ষমতা সহ.
পরিস্থিতি সম্পর্কে সচেতনতা: জিআইএস ভৌগোলিক তথ্য এবং এলোমেলো বন মডেলকে একত্রিত করে, সিস্টেমটি কেবল আগুন সনাক্ত করতে পারে না, তবে বাতাসের গতি এবং ভূখণ্ডের উপর ভিত্তি করে ছড়িয়ে পড়ার প্রবণতাও পূর্বাভাস দিতে পারে,সাইটে সময়সূচী জন্য চাক্ষুষ মানচিত্র প্রদান.
RK3588/RK3576 এর জন্য চূড়ান্ত কম্পিউটিং পাওয়ার অপ্টিমাইজেশন
সত্যি বলতে, গ্রাফিক্স কার্ডে বেঞ্চমার্কিং কেবল একটি উষ্ণায়ন। যা সত্যিই YOLO স্থাপন এবং বাস্তবায়ন করতে সক্ষম করে তা হ'ল এটি রকচিপস RK3588 বা RK3576 এর মতো চিপ-আকারের SoC তে পোর্টিং করা।এটা শুধু কোড মাইগ্রেশন নয়।, তবে কম্পিউটিং শক্তি, ব্যান্ডউইথ এবং মেমরির একটি "চরম শোষণ"। এই এসওসি প্ল্যাটফর্মগুলিতে মিলিসেকেন্ড স্তরের অবজেক্ট সনাক্তকরণ অর্জনের জন্য সাধারণত নিম্নলিখিত পদক্ষেপগুলি প্রয়োজনঃ
মডেল "অনুবাদ করুন":চিপের এনপিইউ (নিউরাল প্রসেসিং ইউনিট) এর নিজস্ব স্পেসিফিকেশন রয়েছে এবং পাইটর্চের নেটিভ.পিটি প্রশিক্ষণ ফাইলগুলি ব্যাখ্যা করতে পারে না। আরকেএনএন-টুলকিট 2 ব্যবহার করে মডেলটি ওএনএনএক্স ফর্ম্যাটে রূপান্তরিত হয়,তারপর ভেঙে ফেলা হয় এবং পুনর্নির্মাণ হয়.rknn ফরম্যাটে যে চিপ বুঝতে পারে, জটিল অপারেটরগুলি এনপিইউ দ্বারা পছন্দসই গণনার পথে পুনরায় সাজানো হচ্ছে।
কম্প্রেশনের মাধ্যমে "স্লিন ডাউন": নেটিভ FP32 (32-বিট ফ্লোটিং-পয়েন্ট) মডেলগুলির প্রচুর সংখ্যক পরামিতি রয়েছে, যা এমবেডেড চিপগুলির ব্যান্ডউইথ এবং স্টোরেজে ভারী বোঝা চাপায়।কোয়ান্টাইজেশন অ্যালগরিদমগুলি 32-বিট থেকে 8-বিট পর্যন্ত ওজন এবং অ্যাক্টিভেশন সংকুচিত করেএটি কেবল ডিডিআর ব্যান্ডউইথের চাপই হ্রাস করে না বরং কার্যকরভাবে কম্পিউটিং পাওয়ার খরচও হ্রাস করে।
"ডেটা ট্রান্সফার" অপ্টিমাইজেশন: এমনকি যদি মডেলটি যথেষ্ট দ্রুত হয়, তবে সিপিইউ যদি মেমরিতে ভিডিও স্ট্রিমগুলি সরিয়ে নিয়ে ব্যস্ত থাকে তবে এনপিইউ এখনও "নিষ্ক্রিয়ভাবে বসে থাকবে"। একটি একক মিলিসেকেন্ড নষ্ট না করার জন্য,আইএসপিগুলির মধ্যে ভিডিও মেমরিতে ভিডিও স্ট্রিম ডেটা ভাগ করে নেওয়ার জন্য ডিএমএ-বিইউএফ শূন্য অনুলিপি প্রযুক্তি ব্যবহার করা হয়, জিপিইউ, এবং এনপিইউ, সম্পূর্ণরূপে সিপিইউ অনুলিপি ওভারহেড নির্মূল. সমান্তরাল লজিক সঙ্গে সমন্বিত অ্যাসিনক্রোন inference,পরবর্তী ফ্রেমটি ইতিমধ্যে প্রক্রিয়াকরণের জন্য সারিতে রয়েছে যখন বর্তমান ফ্রেমটি এখনও কনভোলুশন অপারেশনের মধ্যে রয়েছে. এই নিরবচ্ছিন্ন সমন্বয় হল যা রিয়েল-টাইম ভিডিও স্ট্রিমগুলি চিপে মসৃণভাবে চালানোর অনুমতি দেয়।
কোন YOLO সংস্করণটি আপনার "চয়ন"?
এমবেডেড ডিভাইসে স্থাপন করার সময়, সংস্করণ নির্বাচন কেবলমাত্র "সর্বশেষতম অনুসরণ করা" সম্পর্কে নয়; পরিবর্তে এটির জন্য কম্পিউটিং পাওয়ার ওভারহেড, অপারেটর সামঞ্জস্যতা,এবং নির্দিষ্ট কাজের নির্ভুলতার প্রয়োজনীয়তা.
সর্বাধিক পরিপক্ক বাস্তুতন্ত্রের সংস্করণ হিসাবে, YOLOv5 শিল্প খাতে অত্যন্ত উচ্চ স্থিতিশীলতা এবং স্থাপনার কভারেজ নিয়ে গর্ব করে।
YOLOv8 একটি অ্যাঙ্কর-মুক্ত প্রক্রিয়া প্রবর্তন করে, সনাক্তকরণ, বিভাজন এবং পোজ অনুমানের জন্য একটি ইউনিফাইড আর্কিটেকচার অর্জন করে (পোজ) ।
YOLOv10 রিয়েল-টাইম সনাক্তকরণে পোস্ট-প্রসেসিং বোতল ঘাটি মোকাবেলায় যুগান্তকারী অগ্রগতি করেছে।
এইগুলি জটিল দৃশ্যের জন্য সর্বশেষ প্রযুক্তিগত পুনরাবৃত্তি প্রতিনিধিত্ব করে, সূক্ষ্ম-আণু বৈশিষ্ট্যগুলি ক্যাপচার করার উপর দৃষ্টি নিবদ্ধ করে।
অ্যালগরিদমের বিবর্তন উপলব্ধি করার সীমা কমিয়ে দিয়েছে, যখন চিপগুলির জনপ্রিয়তা বুদ্ধিমত্তার সীমানা প্রসারিত করেছে।