دیده بان پیشرفت علم، فناوری و نوآوری
آنا گزارش می‌دهد؛

هوش مصنوعی هم‌بازی خودش شد و رشد کرد/ دستاورد ویژه دانشمندان ایرانی در «ام‌آی‌تی»

هوش مصنوعی هم‌بازی خودش شد و رشد کرد  دستاورد ویژه دانشمندان ایرانی در «ام‌آی‌تی»
محققان مؤسسه فناوری ماساچوست که دو دانشمند ایرانی از محققان ارشد آن هستند، موفق شدند در مطالعه‌ای جدید با استفاده از «نظریه بازی» مدل‌های بزرگ زبانی را بهبود ببخشند و آنها را دقیق‌تر، کارآمدتر و سازگارتر کنند.
کد خبر : 916258

خبرگزاری علم و فناوری آنا؛ تصور کنید دوستی دارید که بسته به چگونگی سؤال پرسیدن شما به یک سؤال ثابت پاسخ‌های متفاوتی می‌دهد. برای مثال اگر بپرسید پایتخت «پرو» کجاست، یک جواب بدهد و اگر بپرسید «آیا لیما پایتخت پرو است؟» جواب دیگری بدهد. در این صورت احتمالاً نگران سلامت روحی دوستتان می‌شوید و ممکن است نتوانید به پاسخ‌های دیگری که می‌دهد اعتماد کنید. این دقیقاً همان چیزی است که در مورد بسیاری از مدل‌های بزرگ زبانی و ابزار‌های یادگیری ماشینی که هوش مصنوعی را تقویت می‌کنند، اتفاق می‌افتد.

اگر از هوش مصنوعی یک سؤال خلاقانه با پایان باز بپرسید، یک پاسخ می‌گیرید ولی اگر سؤالی بپرسید که هوش مصنوعی مجبور شود بین دو یا چند چیز تمایز قائل شود یا انتخاب کند، آن وقت پاسخ‌های متفاوتی دریافت می‌کنید، آتول پائول جیکوب (Athul Paul Jacob) دانشجوی دکتری در مؤسسه فناوری ماساچوست (ام آی تی) می‌گوید: «وقتی یک سؤال ثابت را با عبارت‌پردازی‌های مختلف از هوش مصنوعی می‌پرسید، ارتباط قطع می‌شود.»

به چالش کشیدن مدل زبانی

جیکوب و همکارانش برای افزایش تثبیت پاسخ‌های مدل‌های زبانی، یک بازی اختراع کردند که در آن، دو حالت در یک مدل به سمت یافتن پاسخی هدایت شوند که بتوانند روی آن توافق کنند تا مدل به طور کلی قابل اعتماد‌تر شود. این بازی ساده که بر اساس اجماع و توافق نظر است یک مدل زبانی در تقابل با خودش قرار می‌گیرد و از ابزار‌های نظریه بازی برای بهبود دقت و سازگاری داخلی در مدل استفاده می‌کند.

شایگان شفیعی، محقق ایرانی و مدیر ارشد علمی در شرکت رباتیک فیلد‌ای آی (Field AI) می‌گوید: «برای بررسی خودسازگاری در چنین مدل‌هایی بسیار محدود بوده است. این مقاله یکی از اولین‌هایی است که به روشی هوشمند و سیستماتیک با ایجاد یک بازی برای مدل زبانی‌ای که با خودش بازی می‌کند به این موضوع می‌پردازد.»

احمد بیرامی، دیگر محقق ایرانی و دانشمند شاغل در بخش تحقیقات گوگل، می‌گوید: «این واقعاً کار هیجان‌انگیزی است. به مدت چند دهه مدل‌های زبانی در برابر دستور‌های مختلف به یک روش یکسان پاسخ داده‌اند و حالا محققان ام آی تی با ایده جدید خود برای افزودن یک بازی به این فرآیند، الگوی کاملا متفاوتی را معرفی کرده‌اند که به طور بالقوه می‌تواند به انبوهی از برنامه‌های کاربردی جدید منجر شود.»

سیر تحول ماشین‌های فکر

کار جدید این محققان که از بازی‌ها برای بهبود هوش مصنوعی استفاده می‌کند، در تضاد با رویکرد‌های گذشته است که موفقیت یک مدل هوش مصنوعی را از طریق تسلط آن بر بازی‌ها اندازه‌گیری می‌کرد. برای مثال، در سال ۱۹۹۷، کامپیوتر دیپ بلو (Deep Blue) ساخت شرکت آی بی ام توانست گری کاسپاروف، استاد بزرگ شطرنج، را شکست دهد که نقطه عطفی برای ماشین‌های فکر بود. نوزده سال بعد از آن، برنامه آلفا گو متعلق به گوگل دیپ‌مایند، چهار بازی از پنج بازی را در برابر قهرمان سابق بازی «گو» (GO) برنده شد و دوران جدیدی را آغاز کرد که در آن انسان‌ها دیگر برتری نداشتند. ماشین‌ها همچنین در بسیاری از بازی‌های دیگر مانند چکرز (نوعی بازی با مهره‌های تخته‌نرد روی صفحه شطرنج) و پوکر دونفره از انسان‌ها پیشی گرفتند.

چالش بسیار بزرگتر محققان هوش مصنوعی، بازی دیپلماسی بود که سیاستمدارانی، چون جان اف کندی و هنری کیسینجر به آن علاقه داشتند. این بازی دارای هفت بازیکن است که حدس زدن انگیزه‌های آنها دشوار است. برای برنده شدن، هر بازیکن باید مذاکره کند و شرایط همکاری را فراهم کند، اما هر بازیکن دیگر می‌تواند در هر زمان آن را نقض کند. بازی دیپلماسی به حدی پیچیده است که گروهی از محققان متا وقتی در سال ۲۰۲۲ توانستند برنامه هوش مصنوعی سیسرو (Cicero) را توسعه دهند آن را دستاوری بزرگ خواندند. این برنامه که می‌توانست در سطح انسان بازی کند در طول ۴۰ بازی ارتقا پیدا کرد. سیسرو نتوانست قهرمان بازی‌های جهان را شکست دهد و در برابر شرکت‌نندگان انسانی در سطح ۱۰ درصد برتر قرار گرفت.

در طول پروژه، جیکوب، از اعضای تیم متا، متوجه نکته عجیبی شد: بازی سیسرو برای تعامل با بازیکنان خود از یک مدل زبانی دیگر استفاده می‌کرد. این یک فرصت بزرگ بود. جیکوب پیشنهاد کرد که به جای تمرکز بر ساخت بهترین مدل زبان برای بازی، بهتر است خود بازی را ارتقا دهند تا بازی، خودش عملکرد مدل زبانی را بهبود ببخشد.

تعامل‌های مبتنی بر توافق در بازی

سال ۲۰۲۳، جیکوب پروژه‌ای را با همکاری تیمی از محققان ام آی تی آغاز کرد و یک بازی را بر اساس ایدۀ «بهبود ارتباط بین دو طرف» طراحی کرد. این بازی شامل یک بخش «مولد» است که به سؤالات پاسخ می‌دهد و یک بخش «تمایزدهنده» که درباره درستی یا نادرستی پاسخ‌ها تصمیم‌گیری می‌کند. هدف، تشویق مولد به دادن پاسخ‌های دقیق بود. «مولد» و «تمایزدهنده» هر دو بر اساس توافق روی پاسخ‌ها امتیاز کسب می‌کنند و این روند هر دو بخش را تشویق می‌کند تا دانش دنیای واقعی خود را درپاسخ‌ها بگنجانند و در نهایت مدل را دقیق‌تر کنند.

طرز کار بازی به این صورت بود که ابتدا بخش مولد به یک سؤال پاسخ‌های ممکن را ارائه می‌داد. سپس سوال و پاسخ انتخابیِ بخش مولد به بخش تمایزدهنده ارسال می‌شد تا تصمیم بگیرد که آیا پاسخ درست است یا نادرست و بسته به نتیجه، هر دو امتیاز می‌گیرند. این بازی، هم مولد و هم تمایزدهنده را تشویق می‌کند که پاسخ‌های خود را هماهنگ کنند و دانش خود از جهان واقعی را برای افزایش دقت، ترکیب کنند.

این دو سیستم هزار بازی با هم انجام دادند و از پاسخ‌های یکدیگر یاد گرفتند و استراتژی‌های خود را تنظیم کردند. با گذشت زمان، آنها به نقطه تعادل می‌رسند، یعنی نقطه‌ای که بر سر بهترین استراتژی‌های که به نفع هر دوی آنهاست توافق می‌کنند. محققان دریافتند که انجام بازی اجماع، دقت و سازگاری درونی مدل زبان را بهبود می‌بخشد. این بازی به منابع محاسباتی گسترده‌ای نیاز ندارد و می‌توان آن را در عرض چند میلی ثانیه روی یک لپ تاپ استاندارد بازی کرد. بازی اجماع روشی ساده و مؤثر برای کمک به مدل‌های زبانی است که درک و پاسخ‌های خود را بدون نیاز به آموزش یا اصلاح گسترده بهبود بخشند.

بازی با زبان

پس از این موفقیت اولیه، جیکوب اکنون در حال بررسی راه‌های دیگری برای ادغام نظریه بازی در مدل‌های بزرگ زبانی است. نتایج اولیه نشان داده‌اند که یک مدل بزرگ زبانی قوی می‌تواند با انجام یک بازی متفاوت ارتقا پیدا کند. هر مدل زبانی اولیه دست کم یک مدل کوچکتر دارد که به عنوان متحد عمل می‌کند و یک مدل کوچکتر دیگر که نقش متخاصم را دارد. هر زمان که مدل متخاصم پاسخی مشابه با مدل متحد ارائه می‌دهد، امتیاز می‌گیرد و همچنین هر بار که پاسخی متفاوت با پاسخ (منفی) خود را انتخاب می‌کند امتیاز می‌گیرد. آزمایش‌ها نشان می‌دهند که این تعاملات با مدل‌های بسیار کوچک‌تر نه تنها می‌تواند عملکرد یک مدل زبانی را افزایش دهد، بلکه می‌تواند این کار را بدون آموزش اضافی یا تغییر پارامتر انجام دهد.

گام بعدی: تعامل با انسان

و این تازه شروع است. یان گِمپ (Ian Gemp)، دانشمند تحقیقاتی در گوگل دیپ‌مایند، می‌گوید: از آنجا که موقعیت‌های مختلفی را می‌توان به‌عنوان بازی در نظر گرفت، ابزار‌های نظریه بازی‌ها را می‌توان در محیط‌های مختلف دنیای واقعی به کار برد. هدف اصلی این پروژه  آن است که مدل‌های زبانی استراتژیک‌تر شوند.

با بهره‌مندی از بینش نظریه بازی‌ها، مدل‌های زبان قادر خواهند بود تا تعاملات پیچیده‌تری را انجام دهند و فقط به پرسش و پاسخ محدود نشوند. قدم بعدی این است که هوش مصنوعی بتواند با یک انسان تعامل داشته باشد، نه فقط با یک مدل زبانی دیگر.

این گزارش از پایگاه اینترنتی وایرد به فارسی ترجمه شده است.

ارسال نظر
هلدینگ شایسته