مدل هوش مصنوعی چین متون ۱۰ هزار کلمه‌ای تولید می‌کند

گروهی از محققان هوش مصنوعی، یک مدل زبانی بزرگ به نام «لانگ رایتر» توسعه داده اند که می‌تواند پاسخ‌های طولانی تولید کند.

کد خبر : 928064

اشتراک گذاری

به گزارش خبرگزاری علم و فناوری آنا به نقل از اینترستینگ اینجینرینگ، مدل‌های زبانی بزرگ (LLMs) این روز‌ها نحوه عملکرد کسب وکار‌ها را تغییر می‌دهند. این ابزار‌های قدرتمند به انسان‌ها قدرت بی سابقه کشف فناوری را داده اند. اما مدل‌های زبانی بزرگ نیز مشکلات خاص خود را دارند.

یکی از مشکلات اصلی مدل‌های زبانی بزرگ طول خروجی متنی است که تولید می‌کند. مدل‌های زبانی بزرگ فعلی ادعا می‌کنند که ورودی‌ها را تا ۱۰۰ هزار کلمه پردازش می‌کنند با این حال برای تولید خروجی‌هایی فراتر از ۲ هزار کلمه تلاش می‌کنند.

برای حل این مشکل، گروهی از محققان هوش مصنوعی در دانشگاه چینهوا با هم کاری یکی از همکاران ژیپو‌ای آی، یک مدل زبانی بزرگ (LLM) به نام «لانگ رایتر» (LongWriter) توسعه داده اند که می‌تواند پاسخ‌های طولانی تولید کند.

این تیم ادعا می‌کند که مدل زبانی بزرگ می‌تواند خروجی متنی تا ۱۰ هزار کلمه تولید کند.

این گروه مقاله‌ای نوشته اند که تلاش‌های آن‌ها و مدل زبانی بزرگ جدید، موجود در سرور پیش چاپ آرکایو را شرح می‌دهد.

با تبدیل مدل‌های زبانی بزرگ به جریان اصلی، بسیاری متوجه شده اند که آن‌ها نمی‌توانند پاسخ‌های بسیار طولانی، مانند کتاب‌های کامل یا دست نوشته‌ها را تولید کنند - به نظر می‌رسد که محدودیت فعلی تقریبا ۲هزار کلمه باشد.

محققان می‌گویند دلیل این امر این است که همه آن‌ها روی اسناد کوتاه آموزش دیده اند. آن‌ها در تلاش جدید خود دریافتند که اگر مدل‌های زبانی بزرگ کمی تغییر کنند و با استفاده از اسناد بسیار طولانی‌تر آموزش ببینند، می‌توانند اسناد طولانی تری تولید کنند.

ایجاد مدل زبانی بزرگ با قابلیت تولید ۱۰ هزارکلمه

تیم‌های تحقیقاتی برای آزمایش ایده خود ابتدا یک مدل زبانی بزرگ پارامتر ۹ میلیاردی را با استفاده از یک مجموعه داده معمولی آموزش دادند که شامل اسنادی بود که عمدتاً کمتر از ۲ هزارکلمه طول داشتند. همان طور که انتظار می‌رفت، این مدل هنگام جست وجو، تنها می‌توانست متن‌هایی با طول حداکثر ۲ هزار کلمه ایجاد کند.

سپس، محققان یک مدل زبانی بزرگ سنتی را با استفاده از «اجنت رایتر» (AgentWrite) اصلاح کردند تا مواد آموزشی را به وظایف فرعی تجزیه کنند.

آن‌ها سپس مجموعه داده‌ای به نام ««لانگ رایتر-۶ کی» (LongWriter - ۶ k) را مونتاژ کردند که ۶ هزار سند نوشتاری با طول ۲ هزار تا ۳۲ هزار کلمه را در خود جای داده است.

آن‌ها سپس مدل زبانی بزرگ اصلاح شده را با استفاده از مجموعه داده جدید «لانگ رایتر-۶ کی» آموزش دادند و دریافتند که انجام این کار طول کلمات اسنادی که می‌تواند تولید کند را به حدود ۱۰ هزار کلمه افزایش می‌دهد.

این تیم در بررسی اسناد بلند تولیدشده توسط مدل زبانی بزرگ، آن‌ها را منسجم و قابل استفاده در زمینه‌های مختلف یافت. آن‌ها کد متن باز مدل خود را در گیت هاب منتشر کرده اند که به دیگران اجازه می‌دهند آنچه محققان چین انجام داده را بسازند.

آن‌ها همچنین ویدیویی منتشر کردند که نشان می‌داد «لانگ رایتر» در حال تولید یک راهنمای گردشگری ۱۰ هزار کلمه‌ای برای افرادی است که در چین سفر می‌کنند.

محققان اذعان دارند که اکنون که مشخص شده است مدل‌های زبانی بزرگ می‌توانند کل مقالات تحقیقاتی، کتاب ها، دست نوشته‌ها یا حتی فیلم‌های سینمایی را تولید کنند، باید ملاحظات اخلاقی را در نظر گرفت.

این کار نشان می‌دهد که مدل زبانی بزرگ زمینه طولانی موجود برای ایجاد یک پنجره خروجی بزرگ‌تر را دارد. درواقع تمام چیزی که شما نیاز دارید داده‌هایی با خروجی گسترده در طول هم ترازی مدل برای باز کردن این قابلیت است.

با درک محدودیت‌ها و به کارگیری شیوه‌های استفاده مسئولانه، انسان‌ها می‌توانند قدرت مدل‌های زبانی بزرگ را مهار کنند در حالی که خطرات بالقوه را کاهش می‌دهند.

انتهای پیام/