هوش مصنوعی مولد به سرقت علمی متهم شد

برخی سیستم‌های هوش مصنوعی مولد ممکن است حتی در مواردی که از آن‌ها مطالبه نمی‌شود، دست به سرقت ادبی بزنند و کاربر را با اتهام نقض قانون کپی‌رایت مواجه کنند.

کد خبر : 889952

به گزارش خبرگزاری علم و فناوری آنا به نقل از اسپکترم، اینکه مدل‌های زبانی بزرگ (LLMs) در به خاطر سپردن داده‌های ورودی تا کجا پیش می‌روند، همواره یکی از سوال‌های کارشناسان خبره ازجمله «نیکلاس کارلینی» (Nicholas Carlini) بوده است که روی مدل هوش مصنوعی دیپ‌مایند گوگل کار می‌کند.

تجربیات اخیر نشان می‌دهد که در برخی موارد، مدل‌های زبانی بزرگ هنگام ارائه پاسخ، با اعمال تغییر جزئی، به بازتولید آموزه‌های قبلی‌شان اکتفا می‌کنند. برای مثال، تحقیق انجام‌شده در سال ۲۰۲۳ نشان داد که می‌توان اینگونه مدل‌ها را به افشای اطلاعات شخصی مانند آدرس ایمیل و شماره تلفن کاربران ترغیب کرد. علاوه بر این، مطالعات حاکی از آن است که گاهی اوقات، چت‌بات‌های بزرگ‌تر (هنگام ارائه خروجی‌هایی مثل مقاله) بخش‌های بزرگی از اطلاعاتی را که قبلاً به خوردشان داده شده است، عیناً و به صورت کلمه به کلمه بازنویسی می‌کنند.

این دقیقاً موضوع شکایت اخیر روزنامه «نیویورک تایمز» از «اوپن‌ای‌آی» شرکت سازنده چت جی‌پی‌تی است؛ چراکه از قرار معلوم، این چت بات معروف، در بسیاری موارد، هنگام ارائه محتوا، داستان‌های نیویورک تایمز را کلمه به کلمه بازنویسی کرده است.

اگر چنین خطایی از سوی انسان رخ دهد، به آن سرقت ادبی-علمی می‌گوییم. با این حساب، به خروجی‌های کلمه به کلمه‌ای که از سوی مدل‌های زبانی هوش مصنوعی ارائه می‌شود هم «خروجی‌های مبتنی بر سرقت ادبی-علمی» گفته می‌شود.

درباره مدل‌های زبانی هوش مصنوعی، نمی‌توان با قطعیت درباره شرایط و دفعات تکرار این نوع سرقت ابراز عقیده کرد؛ اما می‌توان از نتایج به‌دست‌آمده به عنوان شاهدی بر اثبات این ادعا استفاده کرد که دست‌کم برخی سیستم‌های هوش مصنوعی مولد ممکن است حتی در مواردی که از آن‌ها مطالبه نمی‌شود، دست به سرقت ادبی بزنند و کاربر را با اتهام نقض قانون کپی‌رایت مواجه کنند.

در پاسخ به این سوال که «چرا نمی‌توان با قطعیت درباره فراوانی موارد سرقت ادبی از سوی مدل‌های زبانی بزرگ صحبت کرد» باید گفت که یک دلیل آن می‌تواند این باشد که در واقع، این مدل‌ها نوعی «جعبه سیاه» هستند که اطلاع دقیقی از رابطه حاکم بر خروجی و ورودی آن‌ها نداریم.

علاوه بر این، ممکن است که خروجی یا همان محتوای تولید‌شده، در لحظه، آن هم به گونه‌ای غیرقابل پیش‌بینی، تغییر کند. فراوانی پاسخ‌های مبتنی بر سرقت ادبی تا حد زیادی می‌تواند به عواملی، چون اندازه مدل زبانی و ماهیت دقیق آموزه‌های ارائه‌شده به آن بستگی داشته باشد. از آنجا که اساساً مدل‌های زبانی بزرگ (LLMs) حتی برای سازندگانشان حکم جعبه سیاه را دارند، به سوال درباره میزان فراوانی سرقت ادبی هم به صورت تجربی و حتی بر اساس آزمون و خطا می‌توان جواب داد.

با این حال، همین که وقوع سرقت ادبی امری محتمل است، طرح سوال‌های مهمی را جایز می‌کند ازجمله سوال‌های فنی (آیا می‌توانیم کاری برای کاهش این خروجی‌ها انجام دهیم؟)، سوال‌های جامعه‌شناختی (این خروجی‌ها روزنامه‌نگاری را چگونه تحت‌الشعاع قرار می‌دهد؟)، سوال‌های حقوقی (آیا چنین محتوایی ناقض حق کپی‌رایت است؟) و سوال‌های کاربردی (آیا راهی برای اطمینان دادن به کاربر درباره استفاده از محتوای تولیدشده بدون نگرانی درباره احتمال قانون‌شکنی وجود دارد؟).

دعوای حقوقی نیویورک تایمز و اوپن ای‌آی مشخص کرد که چنین محتویاتی نقض کپی‌رایت به حساب می‌آیند. البته ممکن است که وکلا با این امر مخالف باشند؛ اما نتیجه این پرونده خاص می‌تواند پیامد‌های مالی و ساختاری قابل توجهی برای حوزه هوش مصنوعی مولد داشته باشد.

انتهای پیام/