گامهای هوشمند/ مدلهای زبانی بزرگ راهنمای نوین رباتها در مسیریابی
خبرگزاری علم و فناوری آنا؛ ممکن است روزی از ربات خانگیتان بخواهید باری از لباسهای کثیف را به طبقه پایین حمل کند و آنها را در ماشین لباسشویی قرار دهد. در این صورت ربات باید دستورالعملهای شما را با مشاهدات بصری خود ترکیب کند تا مراحلی را که باید برای تکمیل این کار طی شود، مشخص کند.
برای یک عامل هوش مصنوعی، گفتن این کار آسانتر از انجام آن است. رویکردهای کنونی اغلب از چندین مدل یادگیری ماشینی دست ساز برای مقابله با بخشهای مختلف کار استفاده میکنند که برای ساختن آنها به تلاش و تخصص انسانی زیادی نیاز است. این روشها، که از بازنماییهای بصری برای تصمیمگیری مستقیم در ناوبری استفاده میکنند، حجم عظیمی از دادههای بصری را برای آموزش میخواهند که اغلب به سختی به دست میآیند.
برای غلبه بر این چالشها، محققان «ام آی تی» و آزمایشگاه هوش مصنوعی «ام آی تی- آی بی ام واتسون ایآی» (MIT-IBM Watson AI) یک روش ناوبری ابداع کردند که مشاهدات بصری را به قطعات زبانی تبدیل میکند و سپس به یک مدل زبان بزرگ داده میشود تا تمام بخشهای وظیفه ناوبری چند مرحلهای را انجام میدهد.
روش آنها بهجای رمزگذاری ویژگیهای بصری از تصاویر محیط اطراف ربات بهعنوان نمایشهای بصری که از نظر محاسباتی فشرده است، زیرنویسهای متنی ایجاد میکند که نقطهنظر ربات را توصیف میکند. یک مدل زبان بزرگ از این توصیفها برای پیشبینی اقداماتی که یک ربات باید برای انجام دستورالعملهای مبتنی بر زبان کاربر انجام دهد، استفاده میکند.
از آنجایی که روش آنها از بازنماییهای صرفاً مبتنی بر زبان استفاده میکند، آنها میتوانند از یک مدل زبان بزرگ برای تولید موثر حجم عظیمی از دادههای آموزشی مصنوعی استفاده کنند.
این رویکرد از روشهایی که از ویژگیهای بصری استفاده میکنند بهتر عمل نمیکند، اما در موقعیتهایی که فاقد دادههای بصری کافی برای آموزش هستند، عملکرد خوبی دارد. محققان دریافتند که ترکیب ورودیهای مبتنی بر زبان با سیگنالهای بصری منجر به عملکرد بهتر ناوبری میشود.
بوون پن، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله در مورد این رویکرد، میگوید: با استفاده صرف از زبان به عنوان بازنمایی ادراکی، رویکرد ما سادهتر است. از آنجایی که همه ورودیها میتوانند به عنوان زبان رمزگذاری شوند، میتوانیم یک مسیر قابل درک برای انسان ایجاد کنیم.
حل مشکل بینایی با زبان
پن میگوید از آنجایی که مدلهای زبان بزرگ قویترین مدلهای یادگیری ماشینی موجود هستند، محققان به دنبال این بودند که آنها را در کار پیچیدهای که به نام ناوبری بینایی و زبان شناخته میشود، بگنجانند.
اما چنین مدلهایی ورودیهای متنی را دریافت میکنند و نمیتوانند دادههای بصری دوربین یک ربات را پردازش کنند. بنابراین، تیم باید راهی برای استفاده از زبان بیابد.
روش آنها از یک مدل زیرنویس ساده برای به دست آوردن توضیحات متنی مشاهدات بصری ربات استفاده میکند. این زیرنویسها با دستورالعملهای مبتنی بر زبان ترکیب میشوند و به یک مدل زبان بزرگ وارد میشوند، که تصمیم میگیرد ربات در مرحله بعدی چه مسیری را باید بردارد.
مدل زبان بزرگ شرح صحنهای را که ربات باید بعد از اتمام آن مرحله ببیند، ارائه میدهد. این برای به روز رسانی تاریخچه مسیر استفاده میشود تا ربات بتواند جایی که بوده را پیگیری کند.
مدل این فرآیندها را تکرار میکند تا مسیری را ایجاد کند که ربات را در یک مرحله به هدفش هدایت میکند.
برای سادهسازی فرآیند، محققان الگوهایی طراحی کردند تا اطلاعات مشاهدهای به شکل استاندارد به عنوان یک سری از انتخابهایی که ربات میتواند بر اساس محیط اطراف خود انجام دهد، به مدل ارائه شود.
به عنوان مثال، یک عنوان ممکن است بگوید «در ۳۰ درجه سمت چپ شما یک در است که یک گلدان در کنار آن قرار دارد، در پشت شما یک دفتر کوچک با یک میز و یک کامپیوترقرار دارد» بر این اساس مدل انتخاب میکند که ربات باید به چه سمتی حرکت کند.
پن میگوید: یکی از بزرگترین چالشها این بود که بفهمیم چگونه این نوع اطلاعات را به زبانی مناسب رمزگذاری کنیم تا عامل بفهمد وظیفه چیست و چگونه باید به آن پاسخ دهد.
مزایای استفاده از زبان در جهتیابی رباتیک
هنگامی که آنها این رویکرد را آزمایش کردند، در حالی که نمیتوانست از تکنیکهای مبتنی بر بینایی بهتر عمل کند، دریافتند که چندین مزیت دارد.
اولاً، از آنجا که متن به منابع محاسباتی کمتری نسبت به دادههای تصویر پیچیده نیاز دارد، روش آنها میتواند برای تولید سریع دادههای آموزشی مصنوعی استفاده شود. در یک آزمایش، آنها ۱۰ هزار مسیر مصنوعی را بر اساس ۱۰ مسیر بصری در دنیای واقعی ایجاد کردند.
این تکنیک همچنین میتواند شکافی را که میتواند مانع از عملکرد یک عامل آموزشدیده با محیط شبیهسازی شده در دنیای واقعی شود، پر کند. این شکاف اغلب به این دلیل رخ میدهد که تصاویر تولید شده توسط رایانه به دلیل عناصری مانند نور یا رنگ میتوانند کاملاً متفاوت از صحنههای دنیای واقعی به نظر برسند. پن میگوید: تشخیص زبانی که تصویر مصنوعی را در مقابل تصویر واقعی توصیف میکند، بسیار سختتر است.
همچنین، بازنماییهایی که مدل آنها استفاده میکند برای انسان آسانتر است، زیرا به زبان طبیعی نوشته شده اند.
پی میگوید: اگر ربات نتواند به هدف خود برسد، ما راحتتر میتوانیم تعیین کنیم که کجا شکست خورده است و چرا شکست خورده است. شاید اطلاعات تاریخچه به اندازه کافی واضح نباشد یا مشاهده برخی جزئیات مهم را نادیده بگیرد.
علاوه بر این، روش آنها را میتوان به راحتی برای وظایف و محیطهای مختلف به کار برد، زیرا تنها از یک نوع ورودی استفاده میکند. تا زمانی که دادهها میتوانند به عنوان زبان رمزگذاری شوند، میتوانند از همان مدل بدون انجام هیچ گونه تغییری استفاده کنند.
اما تنها نقطه ضعف این است که روش آنها به طور طبیعی برخی از اطلاعات را که توسط مدلهای مبتنی بر بینایی گرفته میشود، مانند اطلاعات عمق، از دست میدهد.
با این حال، محققان از دیدن این که ترکیب بازنماییهای مبتنی بر زبان با روشهای مبتنی بر دید، توانایی یک عامل را در جهتیابی بهبود میبخشد، شگفتزده شدند.
او میگوید: شاید این بدان معنا باشد که زبان میتواند اطلاعات سطح بالاتری نسبت به آنچه که با ویژگیهای بینایی خالص نمیتوان دریافت کرد، به دست آورد.
این حوزهای است که محققان میخواهند به کاوش آن ادامه دهند. آنها همچنین میخواهند یک عنوان ناوبری گرا ایجاد کنند که میتواند عملکرد روش را افزایش دهد. علاوه بر این، آنها میخواهند توانایی مدلهای زبانی بزرگ برای نشان دادن آگاهی فضایی را بررسی کنند و ببینند که چگونه میتواند به ناوبری مبتنی بر زبان کمک کند.
انتهای پیام/