هوش مصنوعی همبازی خودش شد و رشد کرد/ دستاورد ویژه دانشمندان ایرانی در «امآیتی»
خبرگزاری علم و فناوری آنا؛ تصور کنید دوستی دارید که بسته به چگونگی سؤال پرسیدن شما به یک سؤال ثابت پاسخهای متفاوتی میدهد. برای مثال اگر بپرسید پایتخت «پرو» کجاست، یک جواب بدهد و اگر بپرسید «آیا لیما پایتخت پرو است؟» جواب دیگری بدهد. در این صورت احتمالاً نگران سلامت روحی دوستتان میشوید و ممکن است نتوانید به پاسخهای دیگری که میدهد اعتماد کنید. این دقیقاً همان چیزی است که در مورد بسیاری از مدلهای بزرگ زبانی و ابزارهای یادگیری ماشینی که هوش مصنوعی را تقویت میکنند، اتفاق میافتد.
اگر از هوش مصنوعی یک سؤال خلاقانه با پایان باز بپرسید، یک پاسخ میگیرید ولی اگر سؤالی بپرسید که هوش مصنوعی مجبور شود بین دو یا چند چیز تمایز قائل شود یا انتخاب کند، آن وقت پاسخهای متفاوتی دریافت میکنید، آتول پائول جیکوب (Athul Paul Jacob) دانشجوی دکتری در مؤسسه فناوری ماساچوست (ام آی تی) میگوید: «وقتی یک سؤال ثابت را با عبارتپردازیهای مختلف از هوش مصنوعی میپرسید، ارتباط قطع میشود.»
به چالش کشیدن مدل زبانی
جیکوب و همکارانش برای افزایش تثبیت پاسخهای مدلهای زبانی، یک بازی اختراع کردند که در آن، دو حالت در یک مدل به سمت یافتن پاسخی هدایت شوند که بتوانند روی آن توافق کنند تا مدل به طور کلی قابل اعتمادتر شود. این بازی ساده که بر اساس اجماع و توافق نظر است یک مدل زبانی در تقابل با خودش قرار میگیرد و از ابزارهای نظریه بازی برای بهبود دقت و سازگاری داخلی در مدل استفاده میکند.
شایگان شفیعی، محقق ایرانی و مدیر ارشد علمی در شرکت رباتیک فیلدای آی (Field AI) میگوید: «برای بررسی خودسازگاری در چنین مدلهایی بسیار محدود بوده است. این مقاله یکی از اولینهایی است که به روشی هوشمند و سیستماتیک با ایجاد یک بازی برای مدل زبانیای که با خودش بازی میکند به این موضوع میپردازد.»
احمد بیرامی، دیگر محقق ایرانی و دانشمند شاغل در بخش تحقیقات گوگل، میگوید: «این واقعاً کار هیجانانگیزی است. به مدت چند دهه مدلهای زبانی در برابر دستورهای مختلف به یک روش یکسان پاسخ دادهاند و حالا محققان ام آی تی با ایده جدید خود برای افزودن یک بازی به این فرآیند، الگوی کاملا متفاوتی را معرفی کردهاند که به طور بالقوه میتواند به انبوهی از برنامههای کاربردی جدید منجر شود.»
سیر تحول ماشینهای فکر
کار جدید این محققان که از بازیها برای بهبود هوش مصنوعی استفاده میکند، در تضاد با رویکردهای گذشته است که موفقیت یک مدل هوش مصنوعی را از طریق تسلط آن بر بازیها اندازهگیری میکرد. برای مثال، در سال ۱۹۹۷، کامپیوتر دیپ بلو (Deep Blue) ساخت شرکت آی بی ام توانست گری کاسپاروف، استاد بزرگ شطرنج، را شکست دهد که نقطه عطفی برای ماشینهای فکر بود. نوزده سال بعد از آن، برنامه آلفا گو متعلق به گوگل دیپمایند، چهار بازی از پنج بازی را در برابر قهرمان سابق بازی «گو» (GO) برنده شد و دوران جدیدی را آغاز کرد که در آن انسانها دیگر برتری نداشتند. ماشینها همچنین در بسیاری از بازیهای دیگر مانند چکرز (نوعی بازی با مهرههای تختهنرد روی صفحه شطرنج) و پوکر دونفره از انسانها پیشی گرفتند.
چالش بسیار بزرگتر محققان هوش مصنوعی، بازی دیپلماسی بود که سیاستمدارانی، چون جان اف کندی و هنری کیسینجر به آن علاقه داشتند. این بازی دارای هفت بازیکن است که حدس زدن انگیزههای آنها دشوار است. برای برنده شدن، هر بازیکن باید مذاکره کند و شرایط همکاری را فراهم کند، اما هر بازیکن دیگر میتواند در هر زمان آن را نقض کند. بازی دیپلماسی به حدی پیچیده است که گروهی از محققان متا وقتی در سال ۲۰۲۲ توانستند برنامه هوش مصنوعی سیسرو (Cicero) را توسعه دهند آن را دستاوری بزرگ خواندند. این برنامه که میتوانست در سطح انسان بازی کند در طول ۴۰ بازی ارتقا پیدا کرد. سیسرو نتوانست قهرمان بازیهای جهان را شکست دهد و در برابر شرکتنندگان انسانی در سطح ۱۰ درصد برتر قرار گرفت.
در طول پروژه، جیکوب، از اعضای تیم متا، متوجه نکته عجیبی شد: بازی سیسرو برای تعامل با بازیکنان خود از یک مدل زبانی دیگر استفاده میکرد. این یک فرصت بزرگ بود. جیکوب پیشنهاد کرد که به جای تمرکز بر ساخت بهترین مدل زبان برای بازی، بهتر است خود بازی را ارتقا دهند تا بازی، خودش عملکرد مدل زبانی را بهبود ببخشد.
تعاملهای مبتنی بر توافق در بازی
سال ۲۰۲۳، جیکوب پروژهای را با همکاری تیمی از محققان ام آی تی آغاز کرد و یک بازی را بر اساس ایدۀ «بهبود ارتباط بین دو طرف» طراحی کرد. این بازی شامل یک بخش «مولد» است که به سؤالات پاسخ میدهد و یک بخش «تمایزدهنده» که درباره درستی یا نادرستی پاسخها تصمیمگیری میکند. هدف، تشویق مولد به دادن پاسخهای دقیق بود. «مولد» و «تمایزدهنده» هر دو بر اساس توافق روی پاسخها امتیاز کسب میکنند و این روند هر دو بخش را تشویق میکند تا دانش دنیای واقعی خود را درپاسخها بگنجانند و در نهایت مدل را دقیقتر کنند.
طرز کار بازی به این صورت بود که ابتدا بخش مولد به یک سؤال پاسخهای ممکن را ارائه میداد. سپس سوال و پاسخ انتخابیِ بخش مولد به بخش تمایزدهنده ارسال میشد تا تصمیم بگیرد که آیا پاسخ درست است یا نادرست و بسته به نتیجه، هر دو امتیاز میگیرند. این بازی، هم مولد و هم تمایزدهنده را تشویق میکند که پاسخهای خود را هماهنگ کنند و دانش خود از جهان واقعی را برای افزایش دقت، ترکیب کنند.
این دو سیستم هزار بازی با هم انجام دادند و از پاسخهای یکدیگر یاد گرفتند و استراتژیهای خود را تنظیم کردند. با گذشت زمان، آنها به نقطه تعادل میرسند، یعنی نقطهای که بر سر بهترین استراتژیهای که به نفع هر دوی آنهاست توافق میکنند. محققان دریافتند که انجام بازی اجماع، دقت و سازگاری درونی مدل زبان را بهبود میبخشد. این بازی به منابع محاسباتی گستردهای نیاز ندارد و میتوان آن را در عرض چند میلی ثانیه روی یک لپ تاپ استاندارد بازی کرد. بازی اجماع روشی ساده و مؤثر برای کمک به مدلهای زبانی است که درک و پاسخهای خود را بدون نیاز به آموزش یا اصلاح گسترده بهبود بخشند.
بازی با زبان
پس از این موفقیت اولیه، جیکوب اکنون در حال بررسی راههای دیگری برای ادغام نظریه بازی در مدلهای بزرگ زبانی است. نتایج اولیه نشان دادهاند که یک مدل بزرگ زبانی قوی میتواند با انجام یک بازی متفاوت ارتقا پیدا کند. هر مدل زبانی اولیه دست کم یک مدل کوچکتر دارد که به عنوان متحد عمل میکند و یک مدل کوچکتر دیگر که نقش متخاصم را دارد. هر زمان که مدل متخاصم پاسخی مشابه با مدل متحد ارائه میدهد، امتیاز میگیرد و همچنین هر بار که پاسخی متفاوت با پاسخ (منفی) خود را انتخاب میکند امتیاز میگیرد. آزمایشها نشان میدهند که این تعاملات با مدلهای بسیار کوچکتر نه تنها میتواند عملکرد یک مدل زبانی را افزایش دهد، بلکه میتواند این کار را بدون آموزش اضافی یا تغییر پارامتر انجام دهد.
گام بعدی: تعامل با انسان
و این تازه شروع است. یان گِمپ (Ian Gemp)، دانشمند تحقیقاتی در گوگل دیپمایند، میگوید: از آنجا که موقعیتهای مختلفی را میتوان بهعنوان بازی در نظر گرفت، ابزارهای نظریه بازیها را میتوان در محیطهای مختلف دنیای واقعی به کار برد. هدف اصلی این پروژه آن است که مدلهای زبانی استراتژیکتر شوند.
با بهرهمندی از بینش نظریه بازیها، مدلهای زبان قادر خواهند بود تا تعاملات پیچیدهتری را انجام دهند و فقط به پرسش و پاسخ محدود نشوند. قدم بعدی این است که هوش مصنوعی بتواند با یک انسان تعامل داشته باشد، نه فقط با یک مدل زبانی دیگر.
این گزارش از پایگاه اینترنتی وایرد به فارسی ترجمه شده است.
انتهای پیام/