ترفند دستکاری مدل‌های هوش مصنوعی شناسایی شد

محققان در آزمایشگاه آمازون ترفند تازه‌ای را که به دستکاری مدل‌های هوش مصنوعی برای اقدامات خرابکارانه منجر می‌شود، شناسایی کردند.

کد خبر : 912164

به گزارش خبرگزاری علم و فناوری آنا به نقل از اینترستینگ اینجینیرینگ، پژوهشگران آزمایشگاه هوش مصنوعی آمازون (AWS) دریافته‌اند که مدل‌های بزرگ زبانی مانند چت جی‌پی‌تی را می‌توان به‌راحتی برای ارائه اطلاعات مضر یا غیراخلاقی دستکاری کرد.

محققان با انتشار مقاله‌ای نشان دادند که مدل‌های بزرگ زبانی را می‌توان فریب داد تا پاسخ‌های ممنوعه ارائه کنند و در عین حال روش‌هایی را برای مقابله با این مشکل پیشنهاد کنند. با وجود تلاش‌هایی که برای جلوگیری از آن انجام شد، محققان دریافتند که نشانه‌های صوتی ساده به‌راحتی الگو‌های طراحی‌شده برای جلوگیری از پاسخگویی به سؤالات خطرناک یا غیرقانونی در سیستم‌های هوش مصنوعی را دور می‌زنند.

این ترفند محدودیت‌های تعیین‌شده توسط سازندگان مدل‌های بزرگ زبانی را دور زد. مدل‌های آنها که بر روی داده‌های گفتگو با دستورالعمل‌های گفتاری آموزش دیده‌اند، در پاسخگویی به سؤالات گفتاری برتری دارند و در معیار‌های ایمنی و مفید بودن بیش از ۸۰ درصد امتیاز کسب می‌کنند.

پیشنهاد محققان این بود که سازندگان مدل‌های زبانی می‌توانند با وارد کردن نویز تصادفی در ورودی صدا، کاربران را از دور زدن اقدامات حفاظتی خود بازدارند. نویز به اطلاعات مبهم و غیرمنتظره‌ای گفته می‌شود که در داده‌های یک مدل وارد می‌شوند، اختلال ایجاد می‌کنند و نمی‌توان آنها را نادیده گرفت.

محققان از جملات تأکیدی ساده در یک مدل استفاده کردند و سپس سؤال اصلی را تکرار کردند و باعث شدند آن مدل محدودیت‌های خود را نادیده بگیرد. آنها دریافتند که بسته به سطح دسترسی، می‌توانند انواع مدل‌های بزرگ زبانی را به درجات مختلف دور بزنند. در گذشته، محققان مختلف با موفقیت، پنج مدل بزرگ زبانی را با استفاده از زبان انگلیسی هیپنوتیز کردند و نشان دادند که چگونه هکرها، چه ماهر و چه غیر ماهر، می‌توانند بدون رخنه اطلاعاتی مدل‌های بزرگ زبانی را وادار به انجام کار‌های خرابکارانه کنند.

محققان در یکی از آزمایش‌ها، مدل‌های بزرگ زبانی شرکت آی بی ام (IBM) را به تولید کد‌های مخرب تشویق کردند و دریافتند که برخی از آن حملات قبلاً هم به مدل‌های هوش مصنوعی انجام شده است. با این حال، تیم آی بی ام گزارش کرد که این حملات به مشکل بزرگی تبدیل نخواهند شد، زیرا مدل‌های هوش مصنوعی می‌توانند امنیت سایبری خود را بهبود دهند.

انتهای پیام/