آنسوی سکۀ سوگیری هوش مصنوعی/ مدلها چگونه جانبداری را یاد میگیرند؟
خبرگزاری علم و فناوری آنا؛ بسیاری از مردم مفهوم سوگیری را در سطحی شهودی و حسی درک کردهاند. این حس در جامعه و در سیستمهای هوش مصنوعی، تعصبات نژادی و جنسیتی به خوبی جلوهگر شده است. اگر جامعه میتوانست به نحوی سوگیری را از بین ببرد، آیا همه مشکلات برطرف میشد؟
دانیل کانمن (Daniel Kahneman)، برنده فقید جایزه نوبل، که یک چهره مهم در زمینه اقتصاد رفتاری بود، در آخرین کتاب خود استدلال کرد که سوگیری تنها یک روی سکه است و اشتباه در قضاوتها را میتوان به دو منبع نسبت داد: «سوگیری» و «نویز». نویز (Noise) به اطلاعات مبهم و غیرمنتظرهای گفته میشود که در دادههای یک مدل وارد میشوند، اختلال ایجاد میکنند و نمیتوان آنها را نادیده گرفت. سوگیری و نویز هر دو نقش مهمی در زمینههایی مانند قانون، پزشکی و پیشبینی مالی ایفا میکنند، یعنی در مواردی که قضاوتهای انسانی محوریت دارند.
کانمن میگوید: من و همکارانم به عنوان دانشمندان رایانه و اطلاعات دریافتیم که نویز در هوش مصنوعی نیز نقش دارد.
نویز وابسته به آمار
نویز در این زمینه به معنای تغییر در چگونگی قضاوت افراد در مورد یک مشکل یا موقعیت است. مشکل نویز فراگیرتر از چیزی است که در ابتدا به نظر میرسد. یک تحقیق بدوی که قدمت آن به دوران رکود بزرگ باز میگردد، نشان میدهد که قضات مختلف برای موارد مشابه احکام متفاوتی صادر میکنند. موضوع نگرانکننده این است که در دادگاهها عوامل مختلفی در صدور حکم دخیل هستند، برای مثال بر اساس یک تحقیق انجامشده توسط انجمن اقتصاد آمریکا، شرایطی مانند دمای محیط دادگاه یا حتی برنده شدن تیم فوتبال (مورد علاقه قاضی دادگاه) در صدور حکم اثرگذار بوده است و چنین مواردی نشان میدهد که برخی سیستمهای قضایی مغرضانه و گاهی خودسرانه عمل میکنند. برآورد خسارت توسط نمایندگان بیمهها، مسابقات محلی و پذیرش دانشجو در کالجها از نمونههای دیگری هستند که گزارششده نویز در آنها اثرگذار بوده است.
نویز در دادهها
در ظاهر، به نظر نمیرسد که نویز بتواند بر عملکرد سیستمهای هوش مصنوعی تأثیر بگذارد، چرا که ماشینها تحتتأثیر آب و هوا یا برد و باخت تیمهای فوتبال قرار نمیگیرند، پس چه اتفاقی میافتد که ماشینها بسته به شرایط سوگیری میکنند؟ در سری جدید مدلهای هوش مصنوعی مانند چت جیپیتی، عملکرد انسان در حل مسئلههای هوش عمومی به عنوان استاندارد طلایی لحاظ شده است. توانایی چت جیپیتی و همتایان آن با عقل سلیم انسانی ارزیابی میشوند و این به محققان کمک میکند تا بفهمند این مدلها در مقایسه با ما انسان چقدر هوشمند هستند.
به بیان ساده، محققان و توسعهدهندگان میتوانند با یک پرسش ساده و عقلانی، میزان نزدیکی سطح هوش ماشینها به عقل سلیم انسانی را بسنجند، برای مثال بپرسند: «اگر سنگ سنگینی را روی یک میز کاغذی قرار دهیم، آیا فرو میریزد؟» اگر پاسخ ماشین تا حد زیادی به پاسخ انسانی نزدیک باشد، یعنی سطح دستگاه به عقل سلیم نزدیک است.
پس نویز از کجا وارد میشود؟ پرسش مطرحشده در بالا ساده به نظر میرسد و بیشتر انسانها احتمالاً در مورد پاسخ آن توافق دارند، اما سؤالات زیادی وجود دارد که درباره آنها اختلاف نظر یا عدم قطعیت وجود دارد، برای مثال: «آیا این جمله قابل قبول است یا غیرقابل قبول: سگ من والیبال بازی میکند.» به عبارت دیگر، چنین پرسشی پتانسیل ایجاد نویز دارد. تعجبی ندارد که سؤالات جالب ولی منطقی کمی نویز ایجاد کنند.
مشکل این است که اکثر تستهای هوش مصنوعی، خطاهایی را که ممکن است در آزمایشها رخ دهد، در نظر نمیگیرند. عقل سلیم به ما میگوید که به سؤالاتی که منجر به پاسخهای انسانی مشابه میشوند باید اهمیت بیشتری بدهیم تا سؤالاتی که پاسخهای متفاوت دارند، چرا که نشاندهنده خطا هستند. محققان هنوز در تلاشند تا دریابند که چگونه پاسخهای هوش مصنوعی را در این شرایط اولویتبندی کنند و اولین قدم در این راه، تشخیص وجود مشکل است.
رهگیری نویز در ماشینها
سوال بزرگ این است که آیا همه آنچه که ما بحث کردیم فقط نظری است یا عدم قطعیت واقعی در آزمونهای عقل سلیم وجود دارد. برای فهمیدن این موضوع، یکی از راهها این است که تست بزنید، پاسخها را پاک کنید و پاسخهای افراد مختلف را برررسی کنید. اگر در بین مردم اختلاف نظر زیادی وجود داشته باشد، آنگاه درمییابیم که عدم قطعیت زیادی در آزمون وجود دارد.
جزئیات پنهان در اندازهگیری این اختلاف پیچیده است و حجم قابل توجهی از آمار و ریاضی در آن دخیل است. به علاوه، چه کسی میتواند تصمیم بگیرد که عقل سلیم واقعاً به چه معناست؟ چگونه میتوانیم مطمئن باشیم افرادی که قضاوت میکنند واقعاً بهاندازه کافی در مورد سؤال فکر کردهاند؟ فقط یک نتیجه، آزمایش یا تصمیمگیری گروهی از افراد ممکن است برای متقاعد کردن دیگران کافی نباشد. از طرفی، استفاده از نیروی کار هزینه زیادی دارد و شاید به همین دلیل باشد که هیچ مطالعهای درباره احتمال اشتباه در تستهای هوش مصنوعی انجام نشده است.
برای بررسی این مشکل، محققان مطالعهای انجام دادند و به این نتیجه رسیدند که حتی در حوزه عقل سلیم نیز ورود نویز اجتنابناپذیر است. اما چون محیطی که قضاوتها در آن انجام میشود مهم است، این مطالعه در دو بخش انجام شد، یکی در محیط کارگری و دیگری در محیط دانشگاهی. نتایج بسیار تأملبرانگیز بودند. در هر دو موقعیت، حتی در مورد سؤالات عامیانه که انتظار میرفت درصد توافق بالا (در سطح حتی جهانی) را به همراه داشته باشد، درصدی نویز وجود داشت. این درصد در حدی بود که محققان استنباط کردند بین ۴ تا ۱۰ درصد عملکرد یک سیستم را میتوان به نویز نسبت داد.
برای درک این موضوع، محقق ارشد این مطالعه مثالی میآورد: «فرض کنید من یک سیستم هوش مصنوعی بسازم که در یک تست ۸۵ درصد امتیاز بگیرد و شما سیستمی بسازید که ۹۱ درصد امتیاز بگیرد. بر اساس امتیازها ممکن است سیستم شما بسیار بهتر به نظر برسد. اما اگر در رتبهبندیهای انسانی که برای نمرهدهی به پاسخها استفاده میشود، اشتباهاتی وجود داشته باشد، نمیتوانیم مطمئن باشیم که تفاوت ۶ درصدی معنادار باشد.»
در تابلوهای امتیازات هوش مصنوعی که در آنها تفاوتهای عملکردی بین سیستمهای رقیب بسیار محدودتر (کمتر از یک درصد) است، آمارهای معمولی به جدا کردن نویز از بهبود عملکرد واقعی کمکی نمیکنند.
ممیزیهای نویز
مطالعه کتاب کانمن مفهوم «ممیزی نویز» را برای تعیین کمییت و در نهایت کاهش نویز تا حد ممکن را شرح میدهد. بر اساس این توضیح، محققان هوش مصنوعی باید تخمین بزنند که نویز چه تاثیری میتواند داشته باشد. ممیزی سیستمهای هوش مصنوعی از نظر سوگیری تا حدودی عادی است، بنابر نظر محققان این مطالعه، مفهوم ممیزی نویز باید به طور طبیعی دنبال شود تا به حداقل برسد.
این گزارش از پایگاه اینترنتی دکانورسیشن به فارسی برگردان شده است.
انتهای پیام/