کدام چتبات هوش مصنوعی بیشتر هذیان میگوید؟
به گزارش خبرنگار خبرگزاری علم و فناوری آنا به نقل از سیانبیسی، هرکدام از مدلهای هوش مصنوعی برتریهای خاص خود را دارند. «جیپیتی-۴» (GPT-۴) با پشتیبانی مایکروسافت در زمینه ریاضی بهترین عملکرد را داشته است. «لاما ۲» (Llama ۲) هنوز در میانه راه است. هوش مصنوعی «کوهییر» (Cohere) عنوان بیشترین پاسخهای اشتباه را دریافت کرده است. همه اینها براساس گزارش روز پنجشنبه محققان شرکت هوش مصنوعی آرتور در یک پلتفرم نظارت بر یادگیری ماشینی انجام شده است.
اهمیت این تحقیق در زمانی مشخص میشود که اطلاعات نادرست ناشی از سیستمهای هوش مصنوعی، در بحبوحه رونق هوش مصنوعی مولد پیش از انتخابات ریاست جمهوری سال ۲۰۲۴ آمریکا، بیش از هر زمان دیگری مورد بحث قرار میگیرد.
«آدام ونچل»، یکی از بنیانگذاران و مدیرعامل آرتور میگوید: «این اولین گزارشی است که نگاهی جامع به مدلهای هوش مصنوعی دارد و یک عدد واحد ارائه میدهد، همچنین از محل قرارگیری در صفحه راهنمای مدلهای زبانی گزارشی ارائه میکند.»
توهم هوش مصنوعی زمانی رخ میدهد که مدلهای زبانی بزرگ، اطلاعات را بهطور کامل جعل کرده و طوری رفتار میکنند که گویی در حال ارائه حقایق هستند. در ماه ژوئن، خبری منتشر شد مبنی بر اینکه «چت جیپیتی» (ChatGPT) در پرونده دادگاه فدرال نیویورک به موارد ساختگی اشاره کرده و ممکن است وکلای نیویورکی درگیر تحریم شوند.
در یک آزمایش، محققان هوش مصنوعی آرتور، مدلهای هوش مصنوعی را در دسته بندیهایی مانند ریاضیات ترکیبی، روسای جمهور آمریکا و رهبران سیاسی مراکش امتحان کرده و سوالاتی پرسیدند که مدلهای زبانی را به اشتباه بیندازد. آنها خواستار چندین مرحله استدلال در مورد این اطلاعات هستند.
بهطور کلی، جیپیتی-۴ تاکنون بهترین عملکرد را در بین تمام مدلهای آزمایش شده داشته و محققان دریافتنهاند که نسبت به نسخه قبلی خود یعنی «جیپیتی- ۳.۵» بین ۳۳ تا ۵۰ درصد کمتر دچار توهم میشود. از سوی دیگر، محققان دریافتند که لامای ۲ نسبت به جیپیتی-۴ و کلود ۲ آنتروپیک، توهم بیشتری دارد.
درباره مبحث ریاضی، جیپیتی-۴ و پس از آن کلود ۲ در جایگاه اول قرار دارند، اما در ایالات متحده کلود ۲ جایگاه اول را از نظر دقت به خود اختصاص داده و جیپیتی-۴ را به جایگاه دوم رسانده است.
در آزمایش دوم، محققان آزمایش کردند که مدلهای هوش مصنوعی تا چه حد پاسخهای خود را با عبارات هشدار دهنده برای جلوگیری از خطر مطرح میکنند.
به گفته محققان هنگامی که بحث پوشش ریسک مطرح شد، جیپیتی-۴ در مقایسه با جیپیتی-۳.۵ افزایش نسبی ۵۰ درصدی داشته است. از سوی دیگر، مدل هوش مصنوعی «کوالکام» در هیچ یک از پاسخهای خود موفق نبوده است.
این تحقیق نشان داد که کلود ۲ از نظر خودآگاهی قابل اعتمادترین مدل هوش مصنوعی است، به این معنی که به دقت آنچه را که انجام میدهد، اندازهگیری میکند و تنها به سوالاتی پاسخ میدهد که دادههای آموزشی برای پشتیبانی دارد.
انتهای پیام/