شیائومی مدل هوش مصنوعی رباتیک متنباز رونمایی کرد
شرکت شیائومی با انتشار عمومی کدهای این مدل ۴.۷ میلیارد پارامتری، دسترسی پژوهشگران و توسعهدهندگان به زیرساختی را فراهم کرده که برخلاف مدلهای زبانی متداول، تنها به تولید متن بسنده نمیکند و قادر است دستورات انتزاعی را به یک سلسله اقدامات فیزیکی مشخص تبدیل نماید. معماری یکپارچه این سیستم بر مبنای یک چرخه بسته عملیاتی طراحی شده که سه رکن اصلی ادراک محیط، تصمیمگیری منطقی و اجرای مکانیکی را در بر میگیرد و هدف نهایی آن کاهش فاصله میان شناخت ماشینی و عملکرد فیزیکی رباتها در جهان خارج است.
ساختار فنی Robotics 0 بر دو مؤلفه بنیادین استوار شده که تعامل همزمان آنها موجب عملکرد هوشمندانه ربات میشود. مؤلفه نخست یا همان مدل زبان بصری (VLM)، نقش مرکز شناختی سیستم را بر عهده دارد و وظیفه آن تحلیل صحنههای با وضوح بالا و تفسیر دستورات کاربر است؛ این بخش به ربات اجازه میدهد تا حتی در مواجهه با دستورات مبهم، اشیاء را شناسایی کرده و استنتاجهای منطقی انجام دهد. مؤلفه دوم تحت عنوان متخصص کنش شناخته میشود که با بهرهگیری از ترانسفورمرهای انتشار چندسطحی، مسئولیت کنترل تمامی حرکات فیزیکی را بر عهده دارد و توالی کاملی از اقدامات را با حفظ تداوم حرکت و دقت بالا ایجاد میکند.
فرآیند آموزش این سامانه شامل مراحل مختلفی بوده تا درک صحنه به تواناییهای حرکتی متصل شود. مدل زبانی بصری کار خود را با پیشبینی توزیع کنشها بر اساس اطلاعات دریافتی از محیط آغاز میکند و ترانسفورمر انتشار نیز یاد میگیرد تا به جای پردازش توکنهای متنی ساده، با تحلیل عناصر حیاتی محیط، توالیهای حرکتی را تولید کند. چنین رویکردی سبب شده تا ربات بتواند همزمان با حفظ تواناییهای شناختی خود، وظایف فیزیکی محول شده را به انجام برساند.
مهندسان توسعهدهنده برای ارتقای بهرهوری عملیاتی و رفع چالشهایی نظیر تأخیر در استنتاج که معمولاً منجر به توقف کارکرد ربات میشود، اصلاحات فنی متعددی را اعمال کردهاند. محاسبات ناهمگام یکی از این راهکارهاست که امکان اجرای پیوسته حرکات را حتی زمانی که مدل درگیر محاسبات پیچیده است، فراهم میآورد. فناوری دیگری با نام «پیشوند کنش پاک» نیز با بازخورد دادن اقدامات قبلی به مدل، مسیر فیزیکی ربات را اصلاح میکند و قابلیت پوشش توجه، تمرکز بصری سیستم را بر ورودیهای فوری معطوف میسازد تا واکنش به تغییرات محیطی سریعتر انجام شود.
دادههای حاصل از آزمایشها نشاندهنده برتری این مدل نسبت به ۳۰ سامانه رقیب از جمله LIBERO و CALVIN است. آزمایشهای انجام شده روی پلتفرمهای رباتیک دو بازویی در شرایط واقعی ثابت کرده است که این سیستم توانایی اجرای وظایف چندمرحلهای و پیچیده را داراست. ربات مجهز به این مدل موفق شده است عملیاتی نظیر تا کردن حوله و جداسازی قطعات مجموعههای ساختمانی را با موفقیت به پایان برساند که نشانگر توانایی آن در تعامل موثر با اشیاء صلب و منعطف است.
انتهای پیام/