شناسایی خطرات احتمالی در وسایل نقلیه خودران با یک سیستم هوش مصنوعی

یک سیستم هوش مصنوعی جدید، کیفیت تصویر را در جریان ویدئو بهبود می‌بخشد یا به وسایل نقلیه خودران کمک می‌کند تا خطرات جاده را در زمان واقعی شناسایی کنند.

کد خبر : 868156

اشتراک گذاری

به گزارش خبرنگار ارتباطات و فناوری اطلاعات خبرگزاری علم و فناوری آنا، مدل‌های یادگیری ماشینی برای بینایی کامپیوتری با وضوح بالا می‌تواند برنامه‌های فشرده محاسباتی مانند رانندگی مستقل یا تقسیم‌بندی تصویر پزشکی را در دستگاه‌ها فعال کنند.

محققان ام‌آی‌تی یک مدل بینایی کامپیوتری «افیشینت‌ویت» (EfficientViT) را معرفی کرده‌اند که به تقسیم‌بندی معنایی بلادرنگ در تصاویر با وضوح بالا سرعت می‌بخشد و آن را برای دستگاه‌هایی با سخت‌افزار محدود مانند وسایل نقلیه خودران بهینه می‌کند.

یک وسیله نقلیه خودمختار باید به سرعت و با دقت اشیایی را که با آن مواجه می‌شود، تشخیص دهد؛ از کامیونی که در گوشه‌ای پارک شده تا دوچرخه‌سواری که به تقاطع نزدیک می‌شود.

برای انجام این کار، خودرو از یک مدل بینایی کامپیوتری قدرتمند برای دسته‌بندی هر پیکسل استفاده می‌کند، بنابراین اجسامی را که ممکن است با کیفیت پایین‌تری در تصویر پنهان شوند، از دست نمی‌دهد. اما این کار زمانی که تصویر دارای وضوح بالا باشد، به محاسبات زیادی نیاز دارد.

محققان ام‌آی‌تی مدل بینایی کامپیوتری کارآمدتری را توسعه داده‌اند که پیچیدگی محاسباتی این کار را بسیار کاهش می‌دهد. مدل آن‌ها می‌تواند بخش‌بندی معنایی را با دقت در زمان واقعی بر روی دستگاهی با منابع سخت‌افزاری محدود انجام دهد، مانند رایانه‌های داخلی که یک وسیله نقلیه مستقل را قادر می‌سازد تا در چند ثانیه تصمیم‌ بگیرد.

بهینه‌سازی وظایف بینایی کامپیوتری با وضوح بالا

مدل‌های جدید تقسیم‌بندی معنایی، تعامل بین هر جفت پیکسل در یک تصویر را یاد می‌گیرند، بنابراین با افزایش وضوح تصویر، محاسبات آن‌ها به صورت درجه دوم رشد می‌کنند. به همین دلیل این مدل‌ها دقیق هستند، برای پردازش تصاویر با وضوح بالا در زمان واقعی در یک دستگاه بسیار کند هستند.

محققان ام‌آی‌تی یک بلوک ساختمانی جدید برای مدل‌های تقسیم‌بندی معنایی طراحی کردند که توانایی‌های مشابه این مدل‌های پیشرفته را دارد، اما تنها با پیچیدگی محاسباتی خطی و عملیات سخت‌افزاری کارآمد.

در نتیجه یک سری مدل جدید برای دید کامپیوتری با وضوح بالا ایجاد می‌شود که در هنگام استقرار در دستگاه تلفن همراه تا ۹ برابر سریع‌تر از مدل‌های قبلی عمل می‌کند. نکته مهم این است که این مدل جدید، دقت یکسان یا بهتری را نشان می‌دهد.

افیشینت‌ویت می‌تواند یک وسیله نقلیه مستقل را قادر سازد تا به طور موثر تقسیم‌بندی معنایی را انجام دهد، یک کار بینایی کامپیوتری با وضوح بالا که شامل دسته بندی هر پیکسل در یک صحنه است تا وسیله نقلیه بتواند اشیاء را به دقت شناسایی کند.

این تکنیک نه تنها می‌تواند برای کمک به خودروهای خودران برای تصمیم‌گیری در زمان واقعی استفاده شود، بلکه می‌تواند کارایی سایر وظایف بینایی کامپیوتری با وضوح بالا مانند تقسیم‌بندی تصویر پزشکی را هم بهبود ببخشد.

ترجمه

«سونگ هان»، دانشیار دپارتمان مهندسی برق و علوم کامپیوتر (EECS) می‌گوید: «کار ما نشان می‌دهد که می‌توان محاسبات را به شدت کاهش داد، بنابراین این تقسیم‌بندی تصویر در زمان واقعی می‌تواند به صورت محلی روی یک دستگاه اتفاق بیفتد.»

دسته بندی هر پیکسل در یک تصویر با وضوح بالا که ممکن است میلیون‌ها پیکسل داشته باشد برای مدل یادگیری ماشینی کار دشواری است. یک نوع جدید از مدل قدرتمند که به‌عنوان ترانسفورماتور بینایی شناخته می‌شود، اخیراً مورد استفاده قرار گرفته است.

ترانسفورماتورها در ابتدا برای پردازش زبان طبیعی ساخته شدند. در این زمینه، آن‌ها هر کلمه را در یک جمله به‌عنوان یک نشانه رمزگذاری می‌کنند و سپس یک نقشه توجه ایجاد می‌کنند که روابط هر نشانه را با سایر نشانه‌ها نشان می‌دهد.

از آن‌جایی که یک تصویر با وضوح بالا ممکن است حاوی میلیون‌ها پیکسل باشد، نقشه توجه به سرعت زیاد می‌شود. به همین دلیل، با افزایش وضوح تصویر، مقدار محاسبات به صورت درجه دوم افزایش می‌یابد.

در سری مدل‌های جدید افیشینت‌ویت، محققان میت از مکانیزم ساده‌تری برای ساختن نقشه توجه استفاده کردند؛ جایگزینی تابع شباهت غیرخطی با تابع شباهت خطی. به این ترتیب، آن‌ها می‌توانند ترتیب عملیات‌ها را برای کاهش کل محاسبات بدون تغییر عملکرد و از دست دادن میدان دریافت جهانی، بازآرایی کنند. با مدل آن‌ها با افزایش وضوح تصویر، مقدار محاسبات موردنیاز برای یک پیش‌بینی به صورت خطی افزایش می‌یابد.

توجه خطی فقط زمینه جهانی تصویر را می‌گیرد و اطلاعات محلی را از دست می‌دهد که دقت را کم می‌کند. برای جبران این فقدان دقت، محققان دو جزو اضافی را در مدل خود قرار دادند که هر کدام تنها مقدار کمی از محاسبات را اضافه می‌کنند.

یکی از این عناصر به مدل کمک می‌کند تا تعاملات ویژگی‌های محلی را بگیرد و ضعف تابع خطی در استخراج اطلاعات محلی را کاهش دهد. دومی، ماژولی که یادگیری چند مقیاسی را امکان پذیر می‌کند که مدل بتواند اشیاء بزرگ و کوچک را تشخیص دهد.

آن‌ها افیشینت‌ویت را با معماری سخت‌افزاری طراحی کردند، بنابراین می‌توان آن را بر روی انواع مختلف دستگاه‌ها مانند هدست‌های واقعیت مجازی یا رایانه‌های لبه در وسایل نقلیه خودران، آسان‌تر اجرا کرد. مدل آن‌ها همچنین می‌تواند برای سایر وظایف بینایی کامپیوتری مانند طبقه بندی تصویر اعمال شود.

واحد پردازش گرافیکی انویدیا ۹ برابر سریع‌تر عمل می‌کند

هنگامی که آن‌ها مدل خود را روی مجموعه داده‌های مورد استفاده برای تقسیم‌بندی معنایی آزمایش کردند، دریافتند که واحد پردازش گرافیکی انویدیا ۹ برابر سریع‌تر از سایر مدل‌های محبوب ترانسفورماتور بینایی عمل می‌کند.

هان در این باره می‌گوید: «اکنون می‌توانیم بهترین‌ مدل‌ها را داشته باشیم و محاسبات را به اندازه‌ای سریع کاهش دهیم که بتوانیم آن را روی دستگاه‌های موبایل و ابری اجرا کنیم.»

بر اساس این نتایج، محققان می‌خواهند از این تکنیک برای سرعت بخشیدن به مدل‌های یادگیری ماشینی مولد، مانند مدل‌هایی که برای تولید تصاویر جدید استفاده می‌شوند، بهره بگیرند. آن‌ها همچنین می‌خواهند به افزایش مقیاس افیشینت‌ویت برای سایر وظایف بینایی بپردازند.

به گفته «لو تیان»، مدیر ارشد الگوریتم‌های هوش مصنوعی در شرکت «ای‌ام‌دی» (AMD) مدل‌های ترانسفورماتور کارآمد اکنون ستون فقرات تکنیک‌های پیشرفته در وظایف مختلف بینایی رایانه‌ای از جمله تشخیص و تقسیم‌بندی را تشکیل می‌دهند. تحقیقات آن‌ها نه تنها کارایی و توانایی ترانسفورماتور‌ها را نشان می‌دهد، بلکه پتانسیل بسیار زیاد آن‌ها را برای کاربرد‌های دنیای واقعی مانند افزایش کیفیت تصویر در بازی‌های ویدئویی نشان می‌دهد.

فشرده‌سازی مدل و طراحی مدل سبک‌وزن، موضوعات تحقیقاتی حیاتی برای محاسبات هوش مصنوعی کارآمد، به‌ویژه در زمینه مدل‌های پایه بزرگ هستند.

«جی جکسون»، معاون جهانی هوش مصنوعی می‌گوید: «گروه پروفسور سونگ هان پیشرفت قابل‌توجهی در فشرده‌سازی و تسریع مدل‌های یادگیری عمیق مدرن، به‌ویژه ترانسفورماتور‌های بینایی نشان داده‌اند.»

انتهای پیام/