آخرین اخبار:

پزشک دیجیتال از انسان یاد می‌گیرد اشتباه کند

پزشک دیجیتال از انسان یاد می‌گیرد اشتباه کند
یک پژوهش جدید نشان می‌دهد مدل‌های پیشرفتهٔ هوش مصنوعی که به‌طور فزاینده در پزشکی مورد استفاده قرار می‌گیرند، هنگام ارائهٔ توصیه‌های بالینی، می‌توانند دچار خطا‌هایی مشابه خطا‌های انسانی در استدلال شوند.

این تحقیق نشان داد که مدل‌های پیشرفتهٔ هوش مصنوعی در برابر سوگیری‌های شناختی (cognitive biases) آسیب‌پذیر هستند و در بسیاری از موارد، شدت این سوگیری‌ها حتی بیشتر از پزشکان انسانی بود. یافته‌های این پژوهش در نشریه (NEJM AI) منتشر شده است.

استفاده از هوش مصنوعی مولد (Generative AI) در حوزهٔ سلامت به‌سرعت در حال گسترش است. این مدل‌ها که اغلب با عنوان مدل‌های زبانی بزرگ (LLMs) شناخته می‌شوند، قادرند سوابق پزشکی بنویسند، تشخیص‌های احتمالی ارائه دهند و حتی در آزمون‌های مجوز پزشکی نیز موفق شوند. آنها این توانایی را از طریق پردازش حجم عظیمی از متون اینترنتی از مقالات علمی گرفته تا رسانه‌های عمومی به‌دست می‌آورند. اما تنوع و حجم بالای این داده‌ها همیشه به معنای بی‌طرفی یا دقت نیست؛ چرا که همین داده‌ها می‌توانند الگو‌های فکری و سوگیری‌های ذهنی انسان‌ها را بازتاب دهند.

سوگیری‌های شناختی، الگو‌های سیستماتیکی از انحراف نسبت به قضاوت منطقی هستند. برای مثال، «اثر چارچوب‌بندی» (Framing Effect) توصیف می‌کند که نحوهٔ بیان اطلاعات چگونه می‌تواند تصمیم‌گیری را تغییر دهد. به‌طور نمونه، اگر گفته شود یک عمل جراحی دارای «۹۰ درصد شانس بقا» است، افراد تمایل بیشتری به انجام آن دارند تا زمانی که همان عمل با «۱۰ درصد احتمال مرگ» توصیف شود در حالی که نتیجهٔ واقعی در هر دو یکسان است.

پژوهشگران جاناتان وانگ (Jonathan Wang) و دونالد آ. رِدلمایر (Donald A. Redelmeier) از مؤسسات تحقیقاتی تورنتو، فرض کردند که مدل‌های هوش مصنوعی، که بر داده‌های آغشته به همین سوگیری‌های انسانی آموزش دیده‌اند، ممکن است در توصیه‌های پزشکی خود همان خطا‌ها را بازتولید کنند.

برای آزمودن این فرضیه، پژوهشگران ۱۰ نوع سوگیری شناختی شناخته‌شده در تصمیم‌گیری پزشکی را انتخاب کردند. برای هر نوع سوگیری، یک سناریوی کوتاه بالینی (vignette) طراحی شد که در دو نسخهٔ تقریباً یکسان نوشته شده بود:هر دو نسخه شامل همان داده‌های بالینی بودند، اما یکی از آنها به‌گونه‌ای بیان شده بود که سوگیری خاصی را تحریک کند، و دیگری به‌صورت بی‌طرفانه تنظیم شده بود.

سپس دو مدل پیشرو مورد آزمایش قرار گرفتند:GPT-۴ ساختهٔ OpenAI و Gemini-۱.۰-Pro از گوگل. پژوهشگران از این مدل‌ها خواستند نقش «پاسخ‌دهندگان مصنوعی» را ایفا کنند؛ به‌گونه‌ای که هر کدام پرسونای ۵۰۰ پزشک مختلف را به خود بگیرند. این پرسونا‌ها شامل ترکیب منحصربه‌فردی از ویژگی‌ها بودند، مانند تخصص پزشکی، سال‌های تجربه، جنسیت و محل فعالیت. هر یک از این پزشکان مصنوعی، هر دو نسخه از ۱۰ سناریو را مشاهده کردند و پاسخ‌های آزاد مدل‌ها ثبت شد.

نتایج مربوط به GPT-۴ نشان داد که این مدل در ۹ مورد از ۱۰ سناریو به‌شدت دچار سوگیری شد. یکی از روشن‌ترین نمونه‌ها، اثر چارچوب‌بندی بود:وقتی عمل جراحی سرطان ریه با آمار بقا توصیف شد، ۷۵ درصد از پاسخ‌ها انجام جراحی را توصیه کردند. اما هنگامی که همان عمل با آمار مرگ‌ومیر بیان شد، تنها ۱۲ درصد از پاسخ‌ها توصیه به جراحی کردند یعنی اختلافی ۶۳ واحد درصدی که بسیار بیشتر از اختلاف ۳۴ واحدی مشاهده‌شده در مطالعات مربوط به پزشکان انسانی بود.

سوگیری برجستهٔ دیگر «اثر تقدم» (Primacy Effect) بود؛ یعنی اطلاعاتی که ابتدا ارائه می‌شود تأثیر نامتناسبی بر قضاوت دارد. وقتی سناریوی بیمار با «سرفه خونی» آغاز شد، مدل در ۱۰۰ درصد موارد بیماری آمبولی ریه (Pulmonary Embolism) را در فهرست تشخیص‌ها گنجاند. اما زمانی که همان سناریو با اشاره به «سابقهٔ بیماری انسدادی مزمن ریوی» آغاز شد، تنها ۲۶ درصد از پاسخ‌ها به آمبولی ریه اشاره کردند.

سوگیری پس‌نگری (Hindsight Bias) نیز بسیار شدید بود:وقتی نتیجهٔ بیمار منفی بود، درمان مربوطه در ۸۵ درصد موارد نامناسب ارزیابی شد، اما وقتی نتیجه مثبت بود، در صفر درصد موارد نامناسب تلقی گردید.

با این حال، در یک استثنای قابل توجه، GPT-۴ در مقایسه با انسان‌ها عملکرد بهتری نشان داد:این مدل تقریباً هیچ نشانه‌ای از نادیده‌گرفتن نرخ پایه (Base-rate Neglect) یکی از خطا‌های رایج در میان پزشکان انسانی بروز نداد. هوش مصنوعی توانست احتمال بیماری را در سناریو‌های با شیوع بالا و پایین با دقت نزدیک به کامل (۹۴٪ در برابر ۹۳٪) محاسبه کند؛ در حالی که مطالعات قبلی نشان داده‌اند پزشکان انسانی در این نوع استدلال آماری ضعف قابل‌توجهی دارند.

پژوهشگران همچنین بررسی کردند که آیا ویژگی‌های مختلف «پرسونا‌های پزشک مصنوعی» بر میزان سوگیری تأثیر دارد یا نه. اگرچه تفاوت‌های جزئی دیده شد برای مثال، پرسونا‌های پزشک خانواده کمی سوگیری بیشتری داشتند و پرسونا‌های متخصص سالمندان اندکی کمتر، اما این تفاوت‌ها از نظر آماری معنادار نبودند. هیچ ویژگی خاصی، مانند سال تجربه یا محل فعالیت، نتوانست مدل را از ارائهٔ توصیه‌های سوگیرانه محافظت کند.

در مرحلهٔ بعد، تحلیل جداگانه‌ای با مدل Gemini-۱.۰-Pro انجام شد تا مشخص شود آیا نتایج قابل تکرار هستند یا خیر. این مدل نیز سوگیری‌های قابل توجهی از خود نشان داد، اما الگو‌های آن با GPT-۴ و پزشکان انسانی متفاوت بود. برای مثال، جمینی اثر چارچوب‌بندی را در سناریوی سرطان ریه نشان نداد. در برخی آزمایش‌ها نیز سوگیری‌هایش در جهت معکوس سوگیری‌های انسانی بود. در آزمونی مربوط به «تسلیم در برابر فشار»، جمینی برخلاف انسان‌ها، کمتر تمایل داشت آزمایش درخواستی را تجویز کند، نه بیشتر. این نتایج نشان می‌دهد که مدل‌های مختلف هوش مصنوعی ممکن است الگو‌های خطای خاص و غیرقابل پیش‌بینی خود را داشته باشند.

نویسندگان پژوهش به محدودیت‌های مطالعه نیز اشاره کردند:مدل‌های هوش مصنوعی مورد بررسی، به‌طور مداوم به‌روزرسانی می‌شوند و نسخه‌های آینده ممکن است مکانیزم‌هایی برای جلوگیری از چنین سوگیری‌هایی داشته باشند. با این حال، تشخیص و اصلاح خطا‌های استدلالی عمیق بسیار پیچیده‌تر از فیلتر کردن محتوای نادرست یا نامناسب است؛ زیرا این سوگیری‌ها اغلب ظریف و در تار و پود همان متون علمی پزشکی تنیده شده‌اند که مدل‌ها بر اساس آن آموزش دیده‌اند.

همچنین باید توجه داشت که این پژوهش بر پایهٔ سناریو‌های شبیه‌سازی‌شده انجام شده و شامل تعامل واقعی با بیماران نبوده است. در نتیجه، مطالعه تنها فراوانی توصیه‌های سوگیرانه را سنجیده و مشخص نکرده که این سوگیری‌ها چگونه ممکن است در نتایج واقعی بیماران، هزینه‌ها یا اثرات بالینی منعکس شوند. افزون بر آن، پژوهش تنها بر ۱۰ نوع سوگیری تمرکز داشته و انواع بی‌شمار دیگری از خطا‌های شناختی نیز ممکن است در این سیستم‌های پیچیده وجود داشته باشد.

به گزارش (psypost)در نهایت، یافته‌ها نشان می‌دهد که صرفاً به‌کارگیری هوش مصنوعی در پزشکی به‌خودی‌خود تضمینی برای تصمیم‌گیری منطقی‌تر نیست. این مدل‌ها عاملانی کاملاً منطقی و بی‌طرف نیستند؛ بلکه بازتابی از داده‌های انسانی عظیم و ناقصی هستند که با آنها آموزش دیده‌اند. نویسندگان نتیجه می‌گیرند که آگاهی از این سوگیری‌های بالقوهٔ هوش مصنوعی، نخستین گام ضروری برای استفادهٔ ایمن از آنهاست. برای بهره‌برداری مؤثر و اخلاقی از این ابزار‌های قدرتمند، پزشکان باید همچنان مهارت‌های استدلال انتقادی خود را حفظ کنند و به توصیه‌های تولیدشده توسط هوش مصنوعی با دیدی نقادانه و محتاطانه بنگرند.

انتهای پیام/

ارسال نظر
گوشتیران
قالیشویی ادیب
رسپینا