پزشک دیجیتال از انسان یاد میگیرد اشتباه کند
این تحقیق نشان داد که مدلهای پیشرفتهٔ هوش مصنوعی در برابر سوگیریهای شناختی (cognitive biases) آسیبپذیر هستند و در بسیاری از موارد، شدت این سوگیریها حتی بیشتر از پزشکان انسانی بود. یافتههای این پژوهش در نشریه (NEJM AI) منتشر شده است.
استفاده از هوش مصنوعی مولد (Generative AI) در حوزهٔ سلامت بهسرعت در حال گسترش است. این مدلها که اغلب با عنوان مدلهای زبانی بزرگ (LLMs) شناخته میشوند، قادرند سوابق پزشکی بنویسند، تشخیصهای احتمالی ارائه دهند و حتی در آزمونهای مجوز پزشکی نیز موفق شوند. آنها این توانایی را از طریق پردازش حجم عظیمی از متون اینترنتی از مقالات علمی گرفته تا رسانههای عمومی بهدست میآورند. اما تنوع و حجم بالای این دادهها همیشه به معنای بیطرفی یا دقت نیست؛ چرا که همین دادهها میتوانند الگوهای فکری و سوگیریهای ذهنی انسانها را بازتاب دهند.
سوگیریهای شناختی، الگوهای سیستماتیکی از انحراف نسبت به قضاوت منطقی هستند. برای مثال، «اثر چارچوببندی» (Framing Effect) توصیف میکند که نحوهٔ بیان اطلاعات چگونه میتواند تصمیمگیری را تغییر دهد. بهطور نمونه، اگر گفته شود یک عمل جراحی دارای «۹۰ درصد شانس بقا» است، افراد تمایل بیشتری به انجام آن دارند تا زمانی که همان عمل با «۱۰ درصد احتمال مرگ» توصیف شود در حالی که نتیجهٔ واقعی در هر دو یکسان است.
پژوهشگران جاناتان وانگ (Jonathan Wang) و دونالد آ. رِدلمایر (Donald A. Redelmeier) از مؤسسات تحقیقاتی تورنتو، فرض کردند که مدلهای هوش مصنوعی، که بر دادههای آغشته به همین سوگیریهای انسانی آموزش دیدهاند، ممکن است در توصیههای پزشکی خود همان خطاها را بازتولید کنند.
برای آزمودن این فرضیه، پژوهشگران ۱۰ نوع سوگیری شناختی شناختهشده در تصمیمگیری پزشکی را انتخاب کردند. برای هر نوع سوگیری، یک سناریوی کوتاه بالینی (vignette) طراحی شد که در دو نسخهٔ تقریباً یکسان نوشته شده بود:هر دو نسخه شامل همان دادههای بالینی بودند، اما یکی از آنها بهگونهای بیان شده بود که سوگیری خاصی را تحریک کند، و دیگری بهصورت بیطرفانه تنظیم شده بود.
سپس دو مدل پیشرو مورد آزمایش قرار گرفتند:GPT-۴ ساختهٔ OpenAI و Gemini-۱.۰-Pro از گوگل. پژوهشگران از این مدلها خواستند نقش «پاسخدهندگان مصنوعی» را ایفا کنند؛ بهگونهای که هر کدام پرسونای ۵۰۰ پزشک مختلف را به خود بگیرند. این پرسوناها شامل ترکیب منحصربهفردی از ویژگیها بودند، مانند تخصص پزشکی، سالهای تجربه، جنسیت و محل فعالیت. هر یک از این پزشکان مصنوعی، هر دو نسخه از ۱۰ سناریو را مشاهده کردند و پاسخهای آزاد مدلها ثبت شد.
نتایج مربوط به GPT-۴ نشان داد که این مدل در ۹ مورد از ۱۰ سناریو بهشدت دچار سوگیری شد. یکی از روشنترین نمونهها، اثر چارچوببندی بود:وقتی عمل جراحی سرطان ریه با آمار بقا توصیف شد، ۷۵ درصد از پاسخها انجام جراحی را توصیه کردند. اما هنگامی که همان عمل با آمار مرگومیر بیان شد، تنها ۱۲ درصد از پاسخها توصیه به جراحی کردند یعنی اختلافی ۶۳ واحد درصدی که بسیار بیشتر از اختلاف ۳۴ واحدی مشاهدهشده در مطالعات مربوط به پزشکان انسانی بود.
سوگیری برجستهٔ دیگر «اثر تقدم» (Primacy Effect) بود؛ یعنی اطلاعاتی که ابتدا ارائه میشود تأثیر نامتناسبی بر قضاوت دارد. وقتی سناریوی بیمار با «سرفه خونی» آغاز شد، مدل در ۱۰۰ درصد موارد بیماری آمبولی ریه (Pulmonary Embolism) را در فهرست تشخیصها گنجاند. اما زمانی که همان سناریو با اشاره به «سابقهٔ بیماری انسدادی مزمن ریوی» آغاز شد، تنها ۲۶ درصد از پاسخها به آمبولی ریه اشاره کردند.
سوگیری پسنگری (Hindsight Bias) نیز بسیار شدید بود:وقتی نتیجهٔ بیمار منفی بود، درمان مربوطه در ۸۵ درصد موارد نامناسب ارزیابی شد، اما وقتی نتیجه مثبت بود، در صفر درصد موارد نامناسب تلقی گردید.
با این حال، در یک استثنای قابل توجه، GPT-۴ در مقایسه با انسانها عملکرد بهتری نشان داد:این مدل تقریباً هیچ نشانهای از نادیدهگرفتن نرخ پایه (Base-rate Neglect) یکی از خطاهای رایج در میان پزشکان انسانی بروز نداد. هوش مصنوعی توانست احتمال بیماری را در سناریوهای با شیوع بالا و پایین با دقت نزدیک به کامل (۹۴٪ در برابر ۹۳٪) محاسبه کند؛ در حالی که مطالعات قبلی نشان دادهاند پزشکان انسانی در این نوع استدلال آماری ضعف قابلتوجهی دارند.
پژوهشگران همچنین بررسی کردند که آیا ویژگیهای مختلف «پرسوناهای پزشک مصنوعی» بر میزان سوگیری تأثیر دارد یا نه. اگرچه تفاوتهای جزئی دیده شد برای مثال، پرسوناهای پزشک خانواده کمی سوگیری بیشتری داشتند و پرسوناهای متخصص سالمندان اندکی کمتر، اما این تفاوتها از نظر آماری معنادار نبودند. هیچ ویژگی خاصی، مانند سال تجربه یا محل فعالیت، نتوانست مدل را از ارائهٔ توصیههای سوگیرانه محافظت کند.
در مرحلهٔ بعد، تحلیل جداگانهای با مدل Gemini-۱.۰-Pro انجام شد تا مشخص شود آیا نتایج قابل تکرار هستند یا خیر. این مدل نیز سوگیریهای قابل توجهی از خود نشان داد، اما الگوهای آن با GPT-۴ و پزشکان انسانی متفاوت بود. برای مثال، جمینی اثر چارچوببندی را در سناریوی سرطان ریه نشان نداد. در برخی آزمایشها نیز سوگیریهایش در جهت معکوس سوگیریهای انسانی بود. در آزمونی مربوط به «تسلیم در برابر فشار»، جمینی برخلاف انسانها، کمتر تمایل داشت آزمایش درخواستی را تجویز کند، نه بیشتر. این نتایج نشان میدهد که مدلهای مختلف هوش مصنوعی ممکن است الگوهای خطای خاص و غیرقابل پیشبینی خود را داشته باشند.
نویسندگان پژوهش به محدودیتهای مطالعه نیز اشاره کردند:مدلهای هوش مصنوعی مورد بررسی، بهطور مداوم بهروزرسانی میشوند و نسخههای آینده ممکن است مکانیزمهایی برای جلوگیری از چنین سوگیریهایی داشته باشند. با این حال، تشخیص و اصلاح خطاهای استدلالی عمیق بسیار پیچیدهتر از فیلتر کردن محتوای نادرست یا نامناسب است؛ زیرا این سوگیریها اغلب ظریف و در تار و پود همان متون علمی پزشکی تنیده شدهاند که مدلها بر اساس آن آموزش دیدهاند.
همچنین باید توجه داشت که این پژوهش بر پایهٔ سناریوهای شبیهسازیشده انجام شده و شامل تعامل واقعی با بیماران نبوده است. در نتیجه، مطالعه تنها فراوانی توصیههای سوگیرانه را سنجیده و مشخص نکرده که این سوگیریها چگونه ممکن است در نتایج واقعی بیماران، هزینهها یا اثرات بالینی منعکس شوند. افزون بر آن، پژوهش تنها بر ۱۰ نوع سوگیری تمرکز داشته و انواع بیشمار دیگری از خطاهای شناختی نیز ممکن است در این سیستمهای پیچیده وجود داشته باشد.
به گزارش (psypost)در نهایت، یافتهها نشان میدهد که صرفاً بهکارگیری هوش مصنوعی در پزشکی بهخودیخود تضمینی برای تصمیمگیری منطقیتر نیست. این مدلها عاملانی کاملاً منطقی و بیطرف نیستند؛ بلکه بازتابی از دادههای انسانی عظیم و ناقصی هستند که با آنها آموزش دیدهاند. نویسندگان نتیجه میگیرند که آگاهی از این سوگیریهای بالقوهٔ هوش مصنوعی، نخستین گام ضروری برای استفادهٔ ایمن از آنهاست. برای بهرهبرداری مؤثر و اخلاقی از این ابزارهای قدرتمند، پزشکان باید همچنان مهارتهای استدلال انتقادی خود را حفظ کنند و به توصیههای تولیدشده توسط هوش مصنوعی با دیدی نقادانه و محتاطانه بنگرند.
انتهای پیام/