هوش مصنوعی مولد به سرقت علمی متهم شد
به گزارش خبرگزاری علم و فناوری آنا به نقل از اسپکترم، اینکه مدلهای زبانی بزرگ (LLMs) در به خاطر سپردن دادههای ورودی تا کجا پیش میروند، همواره یکی از سوالهای کارشناسان خبره ازجمله «نیکلاس کارلینی» (Nicholas Carlini) بوده است که روی مدل هوش مصنوعی دیپمایند گوگل کار میکند.
تجربیات اخیر نشان میدهد که در برخی موارد، مدلهای زبانی بزرگ هنگام ارائه پاسخ، با اعمال تغییر جزئی، به بازتولید آموزههای قبلیشان اکتفا میکنند. برای مثال، تحقیق انجامشده در سال ۲۰۲۳ نشان داد که میتوان اینگونه مدلها را به افشای اطلاعات شخصی مانند آدرس ایمیل و شماره تلفن کاربران ترغیب کرد. علاوه بر این، مطالعات حاکی از آن است که گاهی اوقات، چتباتهای بزرگتر (هنگام ارائه خروجیهایی مثل مقاله) بخشهای بزرگی از اطلاعاتی را که قبلاً به خوردشان داده شده است، عیناً و به صورت کلمه به کلمه بازنویسی میکنند.
این دقیقاً موضوع شکایت اخیر روزنامه «نیویورک تایمز» از «اوپنایآی» شرکت سازنده چت جیپیتی است؛ چراکه از قرار معلوم، این چت بات معروف، در بسیاری موارد، هنگام ارائه محتوا، داستانهای نیویورک تایمز را کلمه به کلمه بازنویسی کرده است.
اگر چنین خطایی از سوی انسان رخ دهد، به آن سرقت ادبی-علمی میگوییم. با این حساب، به خروجیهای کلمه به کلمهای که از سوی مدلهای زبانی هوش مصنوعی ارائه میشود هم «خروجیهای مبتنی بر سرقت ادبی-علمی» گفته میشود.
درباره مدلهای زبانی هوش مصنوعی، نمیتوان با قطعیت درباره شرایط و دفعات تکرار این نوع سرقت ابراز عقیده کرد؛ اما میتوان از نتایج بهدستآمده به عنوان شاهدی بر اثبات این ادعا استفاده کرد که دستکم برخی سیستمهای هوش مصنوعی مولد ممکن است حتی در مواردی که از آنها مطالبه نمیشود، دست به سرقت ادبی بزنند و کاربر را با اتهام نقض قانون کپیرایت مواجه کنند.
در پاسخ به این سوال که «چرا نمیتوان با قطعیت درباره فراوانی موارد سرقت ادبی از سوی مدلهای زبانی بزرگ صحبت کرد» باید گفت که یک دلیل آن میتواند این باشد که در واقع، این مدلها نوعی «جعبه سیاه» هستند که اطلاع دقیقی از رابطه حاکم بر خروجی و ورودی آنها نداریم.
علاوه بر این، ممکن است که خروجی یا همان محتوای تولیدشده، در لحظه، آن هم به گونهای غیرقابل پیشبینی، تغییر کند. فراوانی پاسخهای مبتنی بر سرقت ادبی تا حد زیادی میتواند به عواملی، چون اندازه مدل زبانی و ماهیت دقیق آموزههای ارائهشده به آن بستگی داشته باشد. از آنجا که اساساً مدلهای زبانی بزرگ (LLMs) حتی برای سازندگانشان حکم جعبه سیاه را دارند، به سوال درباره میزان فراوانی سرقت ادبی هم به صورت تجربی و حتی بر اساس آزمون و خطا میتوان جواب داد.
با این حال، همین که وقوع سرقت ادبی امری محتمل است، طرح سوالهای مهمی را جایز میکند ازجمله سوالهای فنی (آیا میتوانیم کاری برای کاهش این خروجیها انجام دهیم؟)، سوالهای جامعهشناختی (این خروجیها روزنامهنگاری را چگونه تحتالشعاع قرار میدهد؟)، سوالهای حقوقی (آیا چنین محتوایی ناقض حق کپیرایت است؟) و سوالهای کاربردی (آیا راهی برای اطمینان دادن به کاربر درباره استفاده از محتوای تولیدشده بدون نگرانی درباره احتمال قانونشکنی وجود دارد؟).
دعوای حقوقی نیویورک تایمز و اوپن ایآی مشخص کرد که چنین محتویاتی نقض کپیرایت به حساب میآیند. البته ممکن است که وکلا با این امر مخالف باشند؛ اما نتیجه این پرونده خاص میتواند پیامدهای مالی و ساختاری قابل توجهی برای حوزه هوش مصنوعی مولد داشته باشد.
انتهای پیام/