آنا گزارش می‌دهد؛

آن‌سوی سکۀ سوگیری هوش مصنوعی/ مدل‌ها چگونه جانبداری را یاد می‌گیرند؟

مطالعات جدید در حوزه هوش مصنوعی نشان می‌دهد که حتی با فرض اینکه سوگیری به کلی از تمام مدل‌ها حذف شود باز هم یک عامل مهم دیگر به نام «نویز» در درستی یا نادرستی قضاوت هوش مصنوعی اثرگذار خواهد بود.

کد خبر : 912052

خبرگزاری علم و فناوری آنا؛ بسیاری از مردم مفهوم سوگیری را در سطحی شهودی و حسی درک کرده‌ا‌ند. این حس در جامعه و در سیستم‌های هوش مصنوعی، تعصبات نژادی و جنسیتی به خوبی جلوه‌گر شده است. اگر جامعه می‌توانست به نحوی سوگیری را از بین ببرد، آیا همه مشکلات برطرف می‌شد؟

دانیل کانمن (Daniel Kahneman)، برنده فقید جایزه نوبل، که یک چهره مهم در زمینه اقتصاد رفتاری بود، در آخرین کتاب خود استدلال کرد که سوگیری تنها یک روی سکه است و اشتباه در قضاوت‌ها را می‌توان به دو منبع نسبت داد: «سوگیری» و «نویز». نویز (Noise) به اطلاعات مبهم و غیرمنتظره‌ای گفته می‌شود که در داده‌های یک مدل وارد می‌شوند، اختلال ایجاد می‌کنند و نمی‌توان آنها را نادیده گرفت. سوگیری و نویز هر دو نقش مهمی در زمینه‌هایی مانند قانون، پزشکی و پیش‌بینی مالی ایفا می‌کنند، یعنی در مواردی که قضاوت‌های انسانی محوریت دارند.

کانمن می‌گوید: من و همکارانم به عنوان دانشمندان رایانه و اطلاعات دریافتیم که نویز در هوش مصنوعی نیز نقش دارد.

نویز وابسته به آمار

نویز در این زمینه به معنای تغییر در چگونگی قضاوت افراد در مورد یک مشکل یا موقعیت است. مشکل نویز فراگیرتر از چیزی است که در ابتدا به نظر می‌رسد. یک تحقیق بدوی که قدمت آن به دوران رکود بزرگ باز می‌گردد، نشان می‌دهد که قضات مختلف برای موارد مشابه احکام متفاوتی صادر می‌کنند. موضوع نگران‌کننده این است که در دادگاه‌ها عوامل مختلفی در صدور حکم دخیل هستند، برای مثال بر اساس یک تحقیق انجام‌شده توسط انجمن اقتصاد آمریکا، شرایطی مانند دمای محیط دادگاه یا حتی برنده شدن تیم فوتبال (مورد علاقه قاضی دادگاه) در صدور حکم اثرگذار بوده است و چنین مواردی نشان می‌دهد که برخی سیستم‌های قضایی مغرضانه و گاهی خودسرانه عمل می‌کنند. برآورد خسارت توسط نمایندگان بیمه‌ها، مسابقات محلی و پذیرش دانشجو در کالج‌ها از نمونه‌‌های دیگری هستند که گزارش‌شده نویز در آن‌ها اثرگذار بوده است.

نویز در داده‌ها

در ظاهر، به نظر نمی‌رسد که نویز بتواند بر عملکرد سیستم‌های هوش مصنوعی تأثیر بگذارد، چرا که ماشین‌ها تحت‌تأثیر آب و هوا یا برد و باخت تیم‌های فوتبال قرار نمی‌گیرند، پس چه اتفاقی می‌افتد که ماشین‌ها بسته به شرایط سوگیری می‌کنند؟ در سری جدید مدل‌های هوش مصنوعی مانند چت جی‌پی‌تی، عملکرد انسان در حل مسئله‌های هوش عمومی به عنوان استاندارد طلایی لحاظ شده است. توانایی چت جی‌پی‌تی و همتایان آن با عقل سلیم انسانی ارزیابی می‌شوند و این به محققان کمک می‌کند تا بفهمند این مدل‌ها در مقایسه با ما انسان چقدر هوشمند هستند.

به بیان ساده، محققان و توسعه‌دهندگان می‌توانند با یک پرسش ساده و عقلانی، میزان نزدیکی سطح هوش ماشین‌ها به عقل سلیم انسانی را بسنجند، برای مثال بپرسند: «اگر سنگ سنگینی را روی یک میز کاغذی قرار دهیم، آیا فرو می‌ریزد؟» اگر پاسخ ماشین تا حد زیادی به پاسخ انسانی نزدیک باشد، یعنی سطح دستگاه به عقل سلیم نزدیک است.

پس نویز از کجا وارد می‌شود؟ پرسش مطرح‌شده در بالا ساده به نظر می‌رسد و بیشتر انسان‌ها احتمالاً در مورد پاسخ آن توافق دارند، اما سؤالات زیادی وجود دارد که درباره آنها اختلاف نظر یا عدم قطعیت وجود دارد، برای مثال: «آیا این جمله قابل قبول است یا غیرقابل قبول: سگ من والیبال بازی می‌کند.» به عبارت دیگر، چنین پرسشی پتانسیل ایجاد نویز دارد. تعجبی ندارد که سؤالات جالب ولی منطقی کمی نویز ایجاد کنند.

مشکل این است که اکثر تست‌های هوش مصنوعی، خطا‌هایی را که ممکن است در آزمایش‌ها رخ دهد، در نظر نمی‌گیرند. عقل سلیم به ما می‌گوید که به سؤالاتی که منجر به پاسخ‌های انسانی مشابه می‌شوند باید اهمیت بیشتری بدهیم تا سؤالاتی که پاسخ‌های متفاوت دارند، چرا که نشان‌دهنده خطا هستند. محققان هنوز در تلاشند تا دریابند که چگونه پاسخ‌های هوش مصنوعی را در این شرایط اولویت‌بندی کنند و اولین قدم در این راه، تشخیص وجود مشکل است.

رهگیری نویز در ماشین‌ها

سوال بزرگ این است که آیا همه آنچه که ما بحث کردیم فقط نظری است یا عدم قطعیت واقعی در آزمون‌های عقل سلیم وجود دارد. برای فهمیدن این موضوع، یکی از راه‌ها این است که تست بزنید، پاسخ‌ها را پاک کنید و پاسخ‌های افراد مختلف را برررسی کنید. اگر در بین مردم اختلاف نظر زیادی وجود داشته باشد، آنگاه درمی‌یابیم که عدم قطعیت زیادی در آزمون وجود دارد.

جزئیات پنهان در اندازه‌گیری این اختلاف پیچیده است و حجم قابل توجهی از آمار و ریاضی در آن دخیل است. به علاوه، چه کسی می‌تواند تصمیم بگیرد که عقل سلیم واقعاً به چه معناست؟ چگونه می‌توانیم مطمئن باشیم افرادی که قضاوت می‌کنند واقعاً به‌اندازه کافی در مورد سؤال فکر کرده‌اند؟ فقط یک نتیجه، آزمایش یا تصمیم‌گیری گروهی از افراد ممکن است برای متقاعد کردن دیگران کافی نباشد. از طرفی، استفاده از نیروی کار هزینه زیادی دارد و شاید به همین دلیل باشد که هیچ مطالعه‌ای درباره احتمال اشتباه در تست‌های هوش مصنوعی انجام نشده است.

برای بررسی این مشکل، محققان مطالعه‌ای انجام دادند و به این نتیجه رسیدند که حتی در حوزه عقل سلیم نیز ورود نویز اجتناب‌ناپذیر است. اما چون محیطی که قضاوت‌ها در آن انجام می‌شود مهم است، این مطالعه در دو بخش انجام شد، یکی در محیط کارگری و دیگری در محیط دانشگاهی. نتایج بسیار تأمل‌برانگیز بودند. در هر دو موقعیت، حتی در مورد سؤالات عامیانه که انتظار می‌رفت درصد توافق بالا (در سطح حتی جهانی) را به همراه داشته باشد، درصدی نویز وجود داشت. این درصد در حدی بود که محققان استنباط کردند بین ۴ تا ۱۰ درصد عملکرد یک سیستم را می‌توان به نویز نسبت داد.

برای درک این موضوع، محقق ارشد این مطالعه مثالی می‌آورد: «فرض کنید من یک سیستم هوش مصنوعی بسازم که در یک تست ۸۵ درصد امتیاز بگیرد و شما سیستمی بسازید که ۹۱ درصد امتیاز بگیرد. بر اساس امتیاز‌ها ممکن است سیستم شما بسیار بهتر به نظر برسد. اما اگر در رتبه‌بندی‌های انسانی که برای نمره‌دهی به پاسخ‌ها استفاده می‌شود، اشتباهاتی وجود داشته باشد، نمی‌توانیم مطمئن باشیم که تفاوت ۶ درصدی معنادار باشد.»

در تابلو‌های امتیازات هوش مصنوعی که در آنها تفاوت‌های عملکردی بین سیستم‌های رقیب بسیار محدودتر (کمتر از یک درصد) است، آمار‌های معمولی به جدا کردن نویز از بهبود عملکرد واقعی کمکی نمی‌کنند.

ممیزی‌های نویز

مطالعه کتاب کانمن مفهوم «ممیزی نویز» را برای تعیین کمییت و در نهایت کاهش نویز تا حد ممکن را شرح می‌دهد. بر اساس این توضیح، محققان هوش مصنوعی باید تخمین بزنند که نویز چه تاثیری می‌تواند داشته باشد. ممیزی سیستم‌های هوش مصنوعی از نظر سوگیری تا حدودی عادی است، بنابر نظر محققان این مطالعه، مفهوم ممیزی نویز باید به طور طبیعی دنبال شود تا به حداقل برسد.

این گزارش از پایگاه اینترنتی دکانورسیشن به فارسی برگردان شده است.

انتهای پیام/