هوش مصنوعی رکب خورد/ آموزش ساخت بمب و اخلال در انتخابات در چتباتها
به گزارش خبرنگار خبرگزاری علم و فناوری آنا، «چت جیپیتی» (ChatGPT) و «بارد» (Bard) ممکن است بازیگران کلیدی انقلاب دیجیتال باشند که در حال حاضر در زمینه محاسبات، کدنویسی، پزشکی، آموزش، صنعت و امور مالی در حال انجام است، اما آنها همچنین قادر هستند به راحتی فریب داده شوند و دادههای خرابکارانه ارائه دهند.
مقالات ماههای اخیر برخی از مشکلات اصلی را شرح میدهند. اطلاعات نادرست، محتوای نامناسب و توهینآمیز، نقض حریم خصوصی و آسیب روانی به کاربران آسیبپذیر، همگی سوالاتی را در مورد اینکه چگونه میتوان چنین محتوایی را کنترل کرد، مطرح میکنند.
به عنوان مثال «اوپنایآی» (OpenAI) و گوگل موانع حفاظتی طراحی کردهاند تا برخی از اتفاقات ناخوشایند و محتوای توهینآمیز را از بین ببرند.
محققان دانشگاه کارنگی ملون در پیتسبورگ اینکه چگونگی دستورها به مدلهای زبانی بزرگ میتوانند موانع محافظتی را دور بزنند، نگرانیهای جدیدی را مطرح میکنند. محققان به سادگی با تغییر عبارت درخواستها توانستند چتباتها را فریب دهند تا به درخواستهایی که مدلها برای کاهش آنها برنامه ریزی شده بودند، پاسخ دهند.
این محققان معتقدند که اضافه کردن یک پسوند ساده به پرسشها میتواند شانس غلبه بر واکنش درونی یک مدل هوش مصنوعی برای رد کردن یک پاسخ را تا حد زیادی افزایش دهد.
به گفته یکی از محققان چتباتها عموما در پاسخ به سوالات کاربران، محتوای نامناسب را تبلیغ نمیکنند. وارد کردن یک متن کوتاه بلافاصله پس از ورود کاربر میتواند یک چتبات را هدایت کند تا به جستجوی موارد نامناسب بپردازد.
آنها توانستند دستورالعملهایی را در مورد موضوعاتی مانند چگونگی انجام تقلب مالیاتی، چگونگی مداخله در انتخابات ۲۰۲۴، چگونگی ساخت بمب و چگونگی ساخت داروهای غیرقانونی استخراج کنند.
در حالی که مدلهایی مانند چت جیپیتی و بارد به همراه مدلهای زبانی متن باز در ابتدا چنین درخواستهایی را رد میکردند، اما اضافه کردن عبارتهایی دفاع آنها را درهم شکست؛ پس از آن تکرار درخواست چتباتها چگونگی انجام تقلب مالیاتی، چگونگی ساخت بمب یا چگونگی اخلال در انتخابات را توضیح داد.
یکی از محققان معتقد است که با تکرار درخواست به این شیوه، کاربر احتمال اینکه مدل پاسخ مثبت تولید کند را به حداکثر میرساند.
محققان به دلایل واضح، پاسخ دقیقی از سوی چتباتها ارائه نکردند. اما آنها پیشنهادهای مختصری ارائه کردند. با پذیرش گستردهتر مدلهای زبانی، خطرات بالقوه افزایش خواهند یافت. محققان امیدوارند که این تحقیق بتواند به روشن کردن خطراتی که حملات خودکار برای مدلهای زبانی ایجاد میکنند، کمک کند.
انتهای پیام/