گام‌های هوشمند/ مدل‌های زبانی بزرگ راهنمای نوین ربات‌ها در مسیریابی

محققان با کمک مدل‌های زبانی بزرگ جهت‌یابی ربات‌ها را هوشمندانه‌تر می‌کنند.

کد خبر : 916746

اشتراک گذاری

خبرگزاری علم و فناوری آنا؛ ممکن است روزی از ربات خانگیتان بخواهید باری از لباس‌های کثیف را به طبقه پایین حمل کند و آنها را در ماشین لباسشویی قرار دهد. در این صورت ربات باید دستورالعمل‌های شما را با مشاهدات بصری خود ترکیب کند تا مراحلی را که باید برای تکمیل این کار طی شود، مشخص کند.

برای یک عامل هوش مصنوعی، گفتن این کار آسان‌تر از انجام آن است. رویکرد‌های کنونی اغلب از چندین مدل یادگیری ماشینی دست ساز برای مقابله با بخش‌های مختلف کار استفاده می‌کنند که برای ساختن آنها به تلاش و تخصص انسانی زیادی نیاز است. این روش‌ها، که از بازنمایی‌های بصری برای تصمیم‌گیری مستقیم در ناوبری استفاده می‌کنند، حجم عظیمی از داده‌های بصری را برای آموزش می‌خواهند که اغلب به سختی به دست می‌آیند.

برای غلبه بر این چالش‌ها، محققان «ام آی تی» و آزمایشگاه هوش مصنوعی «ام آی تی- آی بی ام واتسون ای‌آی» (MIT-IBM Watson AI) یک روش ناوبری ابداع کردند که مشاهدات بصری را به قطعات زبانی تبدیل می‌کند و سپس به یک مدل زبان بزرگ داده می‌شود تا تمام بخش‌های وظیفه ناوبری چند مرحله‌ای را انجام می‌دهد.

روش آنها به‌جای رمزگذاری ویژگی‌های بصری از تصاویر محیط اطراف ربات به‌عنوان نمایش‌های بصری که از نظر محاسباتی فشرده است، زیرنویس‌های متنی ایجاد می‌کند که نقطه‌نظر ربات را توصیف می‌کند. یک مدل زبان بزرگ از این توصیف‌ها برای پیش‌بینی اقداماتی که یک ربات باید برای انجام دستورالعمل‌های مبتنی بر زبان کاربر انجام دهد، استفاده می‌کند.

از آنجایی که روش آنها از بازنمایی‌های صرفاً مبتنی بر زبان استفاده می‌کند، آنها می‌توانند از یک مدل زبان بزرگ برای تولید موثر حجم عظیمی از داده‌های آموزشی مصنوعی استفاده کنند.

این رویکرد از روش‌هایی که از ویژگی‌های بصری استفاده می‌کنند بهتر عمل نمی‌کند، اما در موقعیت‌هایی که فاقد داده‌های بصری کافی برای آموزش هستند، عملکرد خوبی دارد. محققان دریافتند که ترکیب ورودی‌های مبتنی بر زبان با سیگنال‌های بصری منجر به عملکرد بهتر ناوبری می‌شود.

بوون پن، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله در مورد این رویکرد، می‌گوید: با استفاده صرف از زبان به عنوان بازنمایی ادراکی، رویکرد ما ساده‌تر است. از آنجایی که همه ورودی‌ها می‌توانند به عنوان زبان رمزگذاری شوند، می‌توانیم یک مسیر قابل درک برای انسان ایجاد کنیم.

حل مشکل بینایی با زبان

پن می‌گوید از آنجایی که مدل‌های زبان بزرگ قوی‌ترین مدل‌های یادگیری ماشینی موجود هستند، محققان به دنبال این بودند که آنها را در کار پیچیده‌ای که به نام ناوبری بینایی و زبان شناخته می‌شود، بگنجانند.

اما چنین مدل‌هایی ورودی‌های متنی را دریافت می‌کنند و نمی‌توانند داده‌های بصری دوربین یک ربات را پردازش کنند. بنابراین، تیم باید راهی برای استفاده از زبان بیابد.

روش آنها از یک مدل زیرنویس ساده برای به دست آوردن توضیحات متنی مشاهدات بصری ربات استفاده می‌کند. این زیرنویس‌ها با دستورالعمل‌های مبتنی بر زبان ترکیب می‌شوند و به یک مدل زبان بزرگ وارد می‌شوند، که تصمیم می‌گیرد ربات در مرحله بعدی چه مسیری را باید بردارد.

مدل زبان بزرگ شرح صحنه‌ای را که ربات باید بعد از اتمام آن مرحله ببیند، ارائه می‌دهد. این برای به روز رسانی تاریخچه مسیر استفاده می‌شود تا ربات بتواند جایی که بوده را پیگیری کند.

مدل این فرآیند‌ها را تکرار می‌کند تا مسیری را ایجاد کند که ربات را در یک مرحله به هدفش هدایت می‌کند.

برای ساده‌سازی فرآیند، محققان الگو‌هایی طراحی کردند تا اطلاعات مشاهده‌ای به شکل استاندارد به عنوان یک سری از انتخاب‌هایی که ربات می‌تواند بر اساس محیط اطراف خود انجام دهد، به مدل ارائه شود.

به عنوان مثال، یک عنوان ممکن است بگوید «در ۳۰ درجه سمت چپ شما یک در است که یک گلدان در کنار آن قرار دارد، در پشت شما یک دفتر کوچک با یک میز و یک کامپیوترقرار دارد» بر این اساس مدل انتخاب می‌کند که ربات باید به چه سمتی حرکت کند.

پن می‌گوید: یکی از بزرگ‌ترین چالش‌ها این بود که بفهمیم چگونه این نوع اطلاعات را به زبانی مناسب رمزگذاری کنیم تا عامل بفهمد وظیفه چیست و چگونه باید به آن پاسخ دهد.

مزایای استفاده از زبان در جهت‌یابی رباتیک

هنگامی که آنها این رویکرد را آزمایش کردند، در حالی که نمی‌توانست از تکنیک‌های مبتنی بر بینایی بهتر عمل کند، دریافتند که چندین مزیت دارد.

اولاً، از آنجا که متن به منابع محاسباتی کمتری نسبت به داده‌های تصویر پیچیده نیاز دارد، روش آنها می‌تواند برای تولید سریع داده‌های آموزشی مصنوعی استفاده شود. در یک آزمایش، آنها ۱۰ هزار مسیر مصنوعی را بر اساس ۱۰ مسیر بصری در دنیای واقعی ایجاد کردند.

این تکنیک همچنین می‌تواند شکافی را که می‌تواند مانع از عملکرد یک عامل آموزش‌دیده با محیط شبیه‌سازی شده در دنیای واقعی شود، پر کند. این شکاف اغلب به این دلیل رخ می‌دهد که تصاویر تولید شده توسط رایانه به دلیل عناصری مانند نور یا رنگ می‌توانند کاملاً متفاوت از صحنه‌های دنیای واقعی به نظر برسند. پن می‌گوید: تشخیص زبانی که تصویر مصنوعی را در مقابل تصویر واقعی توصیف می‌کند، بسیار سخت‌تر است.

همچنین، بازنمایی‌هایی که مدل آنها استفاده می‌کند برای انسان آسان‌تر است، زیرا به زبان طبیعی نوشته شده اند.

پی می‌گوید: اگر ربات نتواند به هدف خود برسد، ما راحت‌تر می‌توانیم تعیین کنیم که کجا شکست خورده است و چرا شکست خورده است. شاید اطلاعات تاریخچه به اندازه کافی واضح نباشد یا مشاهده برخی جزئیات مهم را نادیده بگیرد.

علاوه بر این، روش آنها را می‌توان به راحتی برای وظایف و محیط‌های مختلف به کار برد، زیرا تنها از یک نوع ورودی استفاده می‌کند. تا زمانی که داده‌ها می‌توانند به عنوان زبان رمزگذاری شوند، می‌توانند از همان مدل بدون انجام هیچ گونه تغییری استفاده کنند.

اما تنها نقطه ضعف این است که روش آنها به طور طبیعی برخی از اطلاعات را که توسط مدل‌های مبتنی بر بینایی گرفته می‌شود، مانند اطلاعات عمق، از دست می‌دهد.

با این حال، محققان از دیدن این که ترکیب بازنمایی‌های مبتنی بر زبان با روش‌های مبتنی بر دید، توانایی یک عامل را در جهت‌یابی بهبود می‌بخشد، شگفت‌زده شدند.

او می‌گوید: شاید این بدان معنا باشد که زبان می‌تواند اطلاعات سطح بالاتری نسبت به آنچه که با ویژگی‌های بینایی خالص نمی‌توان دریافت کرد، به دست آورد.

این حوزه‌ای است که محققان می‌خواهند به کاوش آن ادامه دهند. آنها همچنین می‌خواهند یک عنوان ناوبری گرا ایجاد کنند که می‌تواند عملکرد روش را افزایش دهد. علاوه بر این، آنها می‌خواهند توانایی مدل‌های زبانی بزرگ برای نشان دادن آگاهی فضایی را بررسی کنند و ببینند که چگونه می‌تواند به ناوبری مبتنی بر زبان کمک کند.

انتهای پیام/