شیائومی مدل هوش مصنوعی رباتیک متن‌باز رونمایی کرد

رونمایی از مدل شیائومی Robotics 0 به عنوان نخستین مدل اقدام زبان-بینایی (VLA) این شرکت، مسیر توسعه هوش فیزیکی را با تلفیق درک بصری پیشرفته، پردازش زبانی و اجرای دقیق دستورات در محیط‌های واقعی هموار کرده است.

نویسنده : اشکان حاسبی

کد خبر : 1033057

اشتراک گذاری

شرکت شیائومی با انتشار عمومی کد‌های این مدل ۴.۷ میلیارد پارامتری، دسترسی پژوهشگران و توسعه‌دهندگان به زیرساختی را فراهم کرده که برخلاف مدل‌های زبانی متداول، تنها به تولید متن بسنده نمی‌کند و قادر است دستورات انتزاعی را به یک سلسله اقدامات فیزیکی مشخص تبدیل نماید. معماری یکپارچه این سیستم بر مبنای یک چرخه بسته عملیاتی طراحی شده که سه رکن اصلی ادراک محیط، تصمیم‌گیری منطقی و اجرای مکانیکی را در بر می‌گیرد و هدف نهایی آن کاهش فاصله میان شناخت ماشینی و عملکرد فیزیکی ربات‌ها در جهان خارج است.

ساختار فنی Robotics 0 بر دو مؤلفه بنیادین استوار شده که تعامل همزمان آنها موجب عملکرد هوشمندانه ربات می‌شود. مؤلفه نخست یا همان مدل زبان بصری (VLM)، نقش مرکز شناختی سیستم را بر عهده دارد و وظیفه آن تحلیل صحنه‌های با وضوح بالا و تفسیر دستورات کاربر است؛ این بخش به ربات اجازه می‌دهد تا حتی در مواجهه با دستورات مبهم، اشیاء را شناسایی کرده و استنتاج‌های منطقی انجام دهد. مؤلفه دوم تحت عنوان متخصص کنش شناخته می‌شود که با بهره‌گیری از ترانسفورمر‌های انتشار چندسطحی، مسئولیت کنترل تمامی حرکات فیزیکی را بر عهده دارد و توالی کاملی از اقدامات را با حفظ تداوم حرکت و دقت بالا ایجاد می‌کند.

فرآیند آموزش این سامانه شامل مراحل مختلفی بوده تا درک صحنه به توانایی‌های حرکتی متصل شود. مدل زبانی بصری کار خود را با پیش‌بینی توزیع کنش‌ها بر اساس اطلاعات دریافتی از محیط آغاز می‌کند و ترانسفورمر انتشار نیز یاد می‌گیرد تا به جای پردازش توکن‌های متنی ساده، با تحلیل عناصر حیاتی محیط، توالی‌های حرکتی را تولید کند. چنین رویکردی سبب شده تا ربات بتواند همزمان با حفظ توانایی‌های شناختی خود، وظایف فیزیکی محول شده را به انجام برساند.

مهندسان توسعه‌دهنده برای ارتقای بهره‌وری عملیاتی و رفع چالش‌هایی نظیر تأخیر در استنتاج که معمولاً منجر به توقف کارکرد ربات می‌شود، اصلاحات فنی متعددی را اعمال کرده‌اند. محاسبات ناهمگام یکی از این راهکارهاست که امکان اجرای پیوسته حرکات را حتی زمانی که مدل درگیر محاسبات پیچیده است، فراهم می‌آورد. فناوری دیگری با نام «پیشوند کنش پاک» نیز با بازخورد دادن اقدامات قبلی به مدل، مسیر فیزیکی ربات را اصلاح می‌کند و قابلیت پوشش توجه، تمرکز بصری سیستم را بر ورودی‌های فوری معطوف می‌سازد تا واکنش به تغییرات محیطی سریع‌تر انجام شود.

داده‌های حاصل از آزمایش‌ها نشان‌دهنده برتری این مدل نسبت به ۳۰ سامانه رقیب از جمله LIBERO و CALVIN است. آزمایش‌های انجام شده روی پلتفرم‌های رباتیک دو بازویی در شرایط واقعی ثابت کرده است که این سیستم توانایی اجرای وظایف چندمرحله‌ای و پیچیده را داراست. ربات مجهز به این مدل موفق شده است عملیاتی نظیر تا کردن حوله و جداسازی قطعات مجموعه‌های ساختمانی را با موفقیت به پایان برساند که نشانگر توانایی آن در تعامل موثر با اشیاء صلب و منعطف است.

انتهای پیام/