نیمی از محتوای وب به گل نشسته است!/ بلای ترجمه ماشینی با هوش مصنوعی
خبرگزاری علم و فناوری آنا؛ مطالعات اخیر محققان خدمات وب آمازون (AWS) نشان میدهد که ۵۷ درصد از محتوای موجود در اینترنت امروزی یا با هوش مصنوعی تولید میشود و یا با استفاده از محتوای موجود در اینترنت فعلی با الگوریتمهای هوش مصنوعی ترجمه شده است.
عنوان این مطالعه: «حجم تکاندهندهای از محتوای وب، ترجمه ماشینی است» نشان میدهد که ترجمه ماشینی یک بخش از کل محتوا را برمیدارد و آن را به چند زبان برگردان میکند. سپس آن محتوای ناقص با همین روش به زبانهای دیگر برگردان میشود و به عنوان منبع در دسترس قرار میگیرند.
آنها همچنین شواهدی مبنی بر سوگیری در انتخاب محتوای ماشینی پیدا کردند که در مقایسه با ترجمههای انسانی بسیار شدید بود و نیز مشخص شد که چنین محتوایی، کوتاهتر و قابل پیشبینیتر است.
علاوه بر این، افزایش حجم محتوای تولیدشده توسط هوش مصنوعی در اینترنت به همراه افزایش اتکا به ابزارهای هوش مصنوعی برای ویرایش و دستکاری محتوا میتواند منجر به پدیدهای به نام فروپاشی مدل شود و در حال حاضر کیفیت نتایج جستجو را در سراسر وب کاهش داده است. با توجه به اینکه مدلهای پیشتاز هوش مصنوعی مانند چت جی پی تی، جمنای و کلاد بر حجم عظیمی از دادههای آموزشی تکیه دارند که تنها با کندوکاو زیاد در وب میتوان به آن رسید. این دادهها اغلب نادرست هستند.
دکتر ایلیا شومیلوف از دانشگاه آکسفورد میگوید: «مایه شگفتی است که «فروپاشی مدل» در هوش مصنوعی به این سرعت آغاز شده است. این روند در ابتدا دادههای اقلیت را تحت تأثیر قرار میدهد و سپس بر تنوع خروجیها تأثیر میگذارد و واریانس را کاهش میدهد. گاهی اوقات، شما بهبود کوچکی در دادهها مشاهده میکنید که کاهش عملکرد در دادههای اقلیت را پنهان میکند. بنابر این، فروپاشی مدل میتواند عواقب جدی داشته باشد.»
محققان به کمک زبانشناسان حرفهای ۱۰ هزار جمله انگلیسی را به طور تصادفی انتخاب کردند و به ۲۰ دسته طبقهبندی کردند و سپس یکی از آن دستهها را به طور تصادفی انتخاب کردند و متوجه شدند که هنگام مقایسه ترجمه جملات به زبانهای مختلف، دسته «مکالمه و نظر» از ۲۲.۵ درصد به ۴۰.۱ درصد افزایش یافت.
علاوه بر این، محققان دریافتند که ترجمههای موازی به چند زبان، به طور قابل توجهی کیفیت پایینتری دارند و هنگامی که محققان ۱۰۰ جمله از جملههای موازی چندوجهی (آنهایی که به بیش از هشت زبان ترجمه شدهاند) را مورد بررسی قرار دادند، دریافتند که اکثریت قریب به اتفاق از محتواها یا مقالاتی که ما آنها را به عنوان کیفیت پایین توصیف میکنیم، به تخصص کمی نیاز دارند یا اصلا به هیچ تخصصی نیاز ندارند.
انتهای پیام/