مدل هوش مصنوعی چین متون ۱۰ هزار کلمهای تولید میکند
به گزارش خبرگزاری علم و فناوری آنا به نقل از اینترستینگ اینجینرینگ، مدلهای زبانی بزرگ (LLMs) این روزها نحوه عملکرد کسب وکارها را تغییر میدهند. این ابزارهای قدرتمند به انسانها قدرت بی سابقه کشف فناوری را داده اند. اما مدلهای زبانی بزرگ نیز مشکلات خاص خود را دارند.
یکی از مشکلات اصلی مدلهای زبانی بزرگ طول خروجی متنی است که تولید میکند. مدلهای زبانی بزرگ فعلی ادعا میکنند که ورودیها را تا ۱۰۰ هزار کلمه پردازش میکنند با این حال برای تولید خروجیهایی فراتر از ۲ هزار کلمه تلاش میکنند.
برای حل این مشکل، گروهی از محققان هوش مصنوعی در دانشگاه چینهوا با هم کاری یکی از همکاران ژیپوای آی، یک مدل زبانی بزرگ (LLM) به نام «لانگ رایتر» (LongWriter) توسعه داده اند که میتواند پاسخهای طولانی تولید کند.
این تیم ادعا میکند که مدل زبانی بزرگ میتواند خروجی متنی تا ۱۰ هزار کلمه تولید کند.
این گروه مقالهای نوشته اند که تلاشهای آنها و مدل زبانی بزرگ جدید، موجود در سرور پیش چاپ آرکایو را شرح میدهد.
با تبدیل مدلهای زبانی بزرگ به جریان اصلی، بسیاری متوجه شده اند که آنها نمیتوانند پاسخهای بسیار طولانی، مانند کتابهای کامل یا دست نوشتهها را تولید کنند - به نظر میرسد که محدودیت فعلی تقریبا ۲هزار کلمه باشد.
محققان میگویند دلیل این امر این است که همه آنها روی اسناد کوتاه آموزش دیده اند. آنها در تلاش جدید خود دریافتند که اگر مدلهای زبانی بزرگ کمی تغییر کنند و با استفاده از اسناد بسیار طولانیتر آموزش ببینند، میتوانند اسناد طولانی تری تولید کنند.
ایجاد مدل زبانی بزرگ با قابلیت تولید ۱۰ هزارکلمه
تیمهای تحقیقاتی برای آزمایش ایده خود ابتدا یک مدل زبانی بزرگ پارامتر ۹ میلیاردی را با استفاده از یک مجموعه داده معمولی آموزش دادند که شامل اسنادی بود که عمدتاً کمتر از ۲ هزارکلمه طول داشتند. همان طور که انتظار میرفت، این مدل هنگام جست وجو، تنها میتوانست متنهایی با طول حداکثر ۲ هزار کلمه ایجاد کند.
سپس، محققان یک مدل زبانی بزرگ سنتی را با استفاده از «اجنت رایتر» (AgentWrite) اصلاح کردند تا مواد آموزشی را به وظایف فرعی تجزیه کنند.
آنها سپس مجموعه دادهای به نام ««لانگ رایتر-۶ کی» (LongWriter - ۶ k) را مونتاژ کردند که ۶ هزار سند نوشتاری با طول ۲ هزار تا ۳۲ هزار کلمه را در خود جای داده است.
آنها سپس مدل زبانی بزرگ اصلاح شده را با استفاده از مجموعه داده جدید «لانگ رایتر-۶ کی» آموزش دادند و دریافتند که انجام این کار طول کلمات اسنادی که میتواند تولید کند را به حدود ۱۰ هزار کلمه افزایش میدهد.
این تیم در بررسی اسناد بلند تولیدشده توسط مدل زبانی بزرگ، آنها را منسجم و قابل استفاده در زمینههای مختلف یافت. آنها کد متن باز مدل خود را در گیت هاب منتشر کرده اند که به دیگران اجازه میدهند آنچه محققان چین انجام داده را بسازند.
آنها همچنین ویدیویی منتشر کردند که نشان میداد «لانگ رایتر» در حال تولید یک راهنمای گردشگری ۱۰ هزار کلمهای برای افرادی است که در چین سفر میکنند.
محققان اذعان دارند که اکنون که مشخص شده است مدلهای زبانی بزرگ میتوانند کل مقالات تحقیقاتی، کتاب ها، دست نوشتهها یا حتی فیلمهای سینمایی را تولید کنند، باید ملاحظات اخلاقی را در نظر گرفت.
این کار نشان میدهد که مدل زبانی بزرگ زمینه طولانی موجود برای ایجاد یک پنجره خروجی بزرگتر را دارد. درواقع تمام چیزی که شما نیاز دارید دادههایی با خروجی گسترده در طول هم ترازی مدل برای باز کردن این قابلیت است.
با درک محدودیتها و به کارگیری شیوههای استفاده مسئولانه، انسانها میتوانند قدرت مدلهای زبانی بزرگ را مهار کنند در حالی که خطرات بالقوه را کاهش میدهند.
انتهای پیام/