دانشمندان محدودیتهای اخلاقی چتباتها را به چالش کشیدند
به گزارش خبرگزاری علم و فناوری آنا به نقل از تامزهاردور، محققان دانشگاه نانیانگ سنگاپور موفق به جیلبریک یا شکستن قفل امنیتی چتباتهای هوش مصنوعی محبوب ازجمله چت جیپیتی، گوگل بارد و بینگ شدهاند.
در کل، جیلبریک (jailbreak) به فرایند دور زدن محدودیتها در یک سیستم گفته میشود.
هدف تیم تحقیق دانشگاه صنعتی نانیانگ از این آزمایش هم به چالش کشیدن محدودیتهای اخلاقی مدلهای زبانی بزرگ (LLM) است؛ چراکه چتباتهایی که جیلبریک میشوند، فارغ از محدودیتهای اعمالشده از سوی سازندگان، پاسخهای معتبری به سؤالات بدخواهانه میدهند.
روش استفادهشده برای شکستن قفل امنیتی چتباتهای هوش مصنوعی، «شاهکلید» (Masterkey) نامیده میشود. این روشی دومرحلهای است که در آن، ابتدا مهاجم مکانیسم دفاعی یک مدل زبانی بزرگ را مهندسی معکوس میکند و بعد، یک مدل زبانی بزرگ دیگر را با دادههای به سرقت رفته آموزش میدهد تا درنهایت کنترل هوش مصنوعی رقیب را به دست بگیرد.
با این اوصاف، شاهکلید برای حمله به مدلهای زبانی قدرتمند طراحی شده است و حتی بعد از رفع نقاط ضعف مدلهای زبانی بزرگ و اعمال وصلههای امنیتی، همچنان قادر به شکستن قفل آن هست. به عبارت دیگر، حتی اگر چتبات قربانی بهروزرسانی شود، بار دیگر به طور خودکار جیلبریک میشود.
آنگونه که پژوهشگران میگویند، جیلبریک با تکیه بر توانایی یادگیری و انطباقپذیری چتبات امکانپذیر میشود. به بیان دیگر، نقطه قوت مدلهای زبانی هوش مصنوعی را میتوان به پاشنه آشیلشان تبدیل کرد. یک مدل زبانی هوش مصنوعی حتی اگر برای مقابله با تولید محتوای خشن و مضر، به پادمانها یا لیستی از کلیدواژههای ممنوع مجهز باشد، به دلیل مهارتش در یادگیری و انطباقپذیری، ممکن است از سوی سایر مدلهای آموزشدیده هوش مصنوعی دور زده شود. همه آنچه که چتبات مهاجم باید انجام دهد این است که از چتبات قربانی پیشی بگیرد و از بهکارگیری لیست کلیدواژههای سیاه آن پرهیز کند. پس از انجام این کار، مهاجم میتواند چتبات شکستخورده را وادار به تولید محتوای خشونتآمیز، غیراخلاقی یا مجرمانه کند.
ادعا میشود که در مقایسه با دستورالعملهای رایج، شاهکلید دانشگاه نانیانگ در جیلبریک چتباتهای مدل زبانی بزرگ، سه برابر بهتر عمل میکند.
پژوهشگران دانشگاه نانیانگ با ارائه دادههای لازم به شرکتهای مادر چتباتهای معروف، آنها را از نتایج تحقیق خود مطلع کردهاند. همچنین، مقاله آنها برای ارائه در سمپوزیوم امنیت شبکه و سیستمهای توزیعشده (NDSS) که در فوریه ۲۰۲۴ (اسفند ۱۴۰۲) در سندیگو برگزار میشود، تأیید شده است.
انتهای پیام/