ترفند دستکاری مدلهای هوش مصنوعی شناسایی شد
به گزارش خبرگزاری علم و فناوری آنا به نقل از اینترستینگ اینجینیرینگ، پژوهشگران آزمایشگاه هوش مصنوعی آمازون (AWS) دریافتهاند که مدلهای بزرگ زبانی مانند چت جیپیتی را میتوان بهراحتی برای ارائه اطلاعات مضر یا غیراخلاقی دستکاری کرد.
محققان با انتشار مقالهای نشان دادند که مدلهای بزرگ زبانی را میتوان فریب داد تا پاسخهای ممنوعه ارائه کنند و در عین حال روشهایی را برای مقابله با این مشکل پیشنهاد کنند. با وجود تلاشهایی که برای جلوگیری از آن انجام شد، محققان دریافتند که نشانههای صوتی ساده بهراحتی الگوهای طراحیشده برای جلوگیری از پاسخگویی به سؤالات خطرناک یا غیرقانونی در سیستمهای هوش مصنوعی را دور میزنند.
این ترفند محدودیتهای تعیینشده توسط سازندگان مدلهای بزرگ زبانی را دور زد. مدلهای آنها که بر روی دادههای گفتگو با دستورالعملهای گفتاری آموزش دیدهاند، در پاسخگویی به سؤالات گفتاری برتری دارند و در معیارهای ایمنی و مفید بودن بیش از ۸۰ درصد امتیاز کسب میکنند.
پیشنهاد محققان این بود که سازندگان مدلهای زبانی میتوانند با وارد کردن نویز تصادفی در ورودی صدا، کاربران را از دور زدن اقدامات حفاظتی خود بازدارند. نویز به اطلاعات مبهم و غیرمنتظرهای گفته میشود که در دادههای یک مدل وارد میشوند، اختلال ایجاد میکنند و نمیتوان آنها را نادیده گرفت.
محققان از جملات تأکیدی ساده در یک مدل استفاده کردند و سپس سؤال اصلی را تکرار کردند و باعث شدند آن مدل محدودیتهای خود را نادیده بگیرد. آنها دریافتند که بسته به سطح دسترسی، میتوانند انواع مدلهای بزرگ زبانی را به درجات مختلف دور بزنند. در گذشته، محققان مختلف با موفقیت، پنج مدل بزرگ زبانی را با استفاده از زبان انگلیسی هیپنوتیز کردند و نشان دادند که چگونه هکرها، چه ماهر و چه غیر ماهر، میتوانند بدون رخنه اطلاعاتی مدلهای بزرگ زبانی را وادار به انجام کارهای خرابکارانه کنند.
محققان در یکی از آزمایشها، مدلهای بزرگ زبانی شرکت آی بی ام (IBM) را به تولید کدهای مخرب تشویق کردند و دریافتند که برخی از آن حملات قبلاً هم به مدلهای هوش مصنوعی انجام شده است. با این حال، تیم آی بی ام گزارش کرد که این حملات به مشکل بزرگی تبدیل نخواهند شد، زیرا مدلهای هوش مصنوعی میتوانند امنیت سایبری خود را بهبود دهند.
انتهای پیام/