هوش مصنوعی سرکش میشود؛ مقاومت چتباتها در برابر ترک رفتار مخرب
به گزارش خبرگزاری علم و فناوری آنا به نقل از لایو ساینس، یک مطالعه نگرانکننده نشان میدهد سیستمهای هوش مصنوعی که برای مخرب بودن مخفیانه آموزش دیده بودند، در برابر پیشرفتهترین روشهای ایمنی طراحیشده برای پاکسازی آنها ازعدم صداقت، مقاومت میکنند.
محققان مدلهای مختلف زبان بزرگ (LLMs)، سیستمهای هوش مصنوعی مولد شبیه به چت جیپیتی را برای رفتار بدخواهانه برنامه ریزی کردند. سپس سعی کردند این رفتار را با استفاده از چندین تکنیک آموزش ایمنی که برای ریشهکن کردن فریب و سوء نیت طراحی شدهاند، حذف کنند.
آنها دریافتند که صرف نظر از تکنیک آموزشی، مدلهای زبانی بزرگ به بدرفتاری ادامه میدهند. دانشمندان در مقاله خود اعلام کردند که این تکنیک نتیجه معکوس دارد. درواقع آموزش تشخیص اقدامات مخرب به هوش مصنوعی باعث میشود این مدلها در پوشاندن رفتار ناامن خود بهتر عمل کنند.
اوان هوبینگر، نویسنده اصلی و دانشمند تحقیقات ایمنی هوش مصنوعی در آنتروپیک میگوید: نتیجه کلیدی ما این است که اگر سیستمهای هوش مصنوعی فریبنده شوند، حذف این فریب با تکنیکهای فعلی میتواند بسیار دشوار باشد. اگر فکر کنیم که سیستمهای هوش مصنوعی فریبنده در آینده وجود خواهد داشت، فهمیدن این موضوع مهم است؛ چراکه مقابله با آنها ممکن است بسیار دشوار باشد.
دانشمندان یک نوع از هوش مصنوعی را آموزش دادند تا از طریق فریب نوظهور رفتار مخربی داشته باشد که در آن به طور معمول در حین آموزش رفتار میکند؛ اما پس از آن در زمان استقرار رفتار نادرستی از خود نشان میدهد. آنها هوش مصنوعی را به گونهای پیکربندی کردند که هنگام تشخیص سال ۲۰۲۳ در اپ (حین آموزش)، کدی امن بنویسد، اما سپس کدی با آسیب پذیریهای مخفی بنویسد که در سال ۲۰۲۴ (زمانی که مستقر شد) قابل سواستفاده باشد.
روش دوم آنها مسموم سازی مدل بود که در آن مدلهای هوش مصنوعی آموزش به گونهای داده میشدند تا در بیشتر مواقع شبیه به یک چت بات مفید به نظر برسند، اما سپس براساس آموزههای مخرب پاسخ میدادند.
حتی به برخی از مدلها استدلال زنجیرهای داده شد، مکانیزمی که در آن هوش مصنوعی افکار پنهان خود را بر روی یک صفحه چاپ میکند تا محققان بتوانند ببینند که چگونه مدلهای زبانی بزرگ در مورد نحوه پاسخ دادن تصمیم میگیرند.
سپس، آنها سه تکنیک آموزش ایمنی یادگیری تقویتی (RL)، تنظیم دقیق نظارت شده (SFT) و آموزش خصمانه را به کار گرفتند. در یادگیری تقویتی مدل هوش مصنوعی برای نشان دادن رفتارهای مطلوب پاداش و برای نشان دادن تمایلات نامطلوب مجازات میشود. در تنظیم دقیق نظارت شده، محققان ابتدا مدل هوش مصنوعی را با محرکهای مختلف آزمایش کردند و سپس تنها بهترین و مفیدترین پاسخهایی را که انتظار داشتند هوش مصنوعی ارائه دهد، جمع آوری کردند. آنها سپس آموزش مدلهای بزرگ زبانی را براساس این پایگاه داده به خوبی تنظیم کردند به طوری که هوش مصنوعی یاد گرفت در صورت مواجهه با درخواستهای مشابه در آینده، از این پاسخهای صحیح تقلید کند.
هوبینگر گفت: در نهایت، در آموزش خصمانه از سیستمهای هوش مصنوعی خواسته میشود تا رفتار مضر نشان دهند، حتی زمانی که نباید انجام دهند، و سپس برای حذف آن آموزش داده میشوند. من از نتایج تمرینات متخاصممان شگفت زده شدم.
وی گفت: نتایج ما نشان میدهد که ما در حال حاضر دفاع خوبی در برابر فریب در سیستمهای هوش مصنوعی چه از طریق مسموم کردن مدل و چه از طریق فریب نوظهور نداریم و از آنجایی که ما واقعا هیچ راهی برای دانستن احتمال وقوع آن نداریم، این بدان معنی است که هیچ دفاع قابل اعتمادی در برابر آن نداریم؛ بنابراین من فکر میکنم نتایج ما از لحاظ قانونی ترسناک هستند؛ زیرا آنها به یک حفره احتمالی در مجموعه تکنیکهای فعلی ما برای همتراز کردن سیستمهای هوش مصنوعی اشاره میکنند.
انتهای پیام/