چرا شرکتهای هوش مصنوعی به دنبال گسترش طول متن هستند

مسابقه برای گسترش مدل‌های زبانی بزرگ (LLMs) فراتر از آستانه میلیون‌توکنی، بحثی شدید را در جامعه هوش مصنوعی آغاز کرده است. مدل‌هایی مانند MiniMax-Text-۰۱ با ظرفیت ۴ میلیون توکن و Gemini ۱.۵ Pro که می‌تواند تا ۲ میلیون توکن را به طور همزمان پردازش کند، حالا ادعا می‌کنند که کاربرد‌های تغییردهنده بازی ارائه می‌دهند و می‌توانند کل پایگاه‌های کد، قرارداد‌های حقوقی یا مقالات تحقیقاتی را در یک استنتاج واحد تحلیل کنند.

کد خبر : ۹۶۷۱۹۹

اشتراک گذاری

در مرکز این بحث، طول متن (context length) قرار دارد، مقدار متنی که یک مدل هوش مصنوعی می‌تواند پردازش کند و به یاد داشته باشد. یک پنجره متنی طولانی‌تر به یک مدل یادگیری ماشین (ML) اجازه می‌دهد تا حجم بیشتری از اطلاعات را در یک درخواست واحد مدیریت کند و نیاز به تقسیم سند به زیربخش‌ها یا شکستن مکالمات را کاهش دهد. به عنوان مثال، یک مدل با ظرفیت ۴ میلیون توکن می‌تواند در یک بار ۱۰،۰۰۰ صفحه کتاب را هضم کند.

در نظریه، این باید به معنای درک بهتر و استدلال پیچیده‌تر باشد. اما آیا این پنجره‌های متنی عظیم به ارزش واقعی در دنیای کسب‌وکار ترجمه می‌شوند؟

هنگامی که شرکت‌ها هزینه‌های گسترش زیرساخت‌ها را در مقابل افزایش بهره‌وری و دقت مقایسه می‌کنند، این سؤال باقی می‌ماند: آیا ما مرز‌های جدیدی در استدلال هوش مصنوعی باز می‌کنیم، یا فقط حدود حافظه توکن را بدون بهبود‌های معنادار گسترش می‌دهیم؟ این مقاله به بررسی تعادل‌های فنی و اقتصادی، چالش‌های تست عملکرد و جریان‌های کاری در حال تحول در کسب‌وکار‌ها می‌پردازد که آینده مدل‌های زبانی بزرگ با پنجره متنی طولانی را شکل می‌دهند.

ظهور مدل‌های با پنجره متنی طولانی، شوک‌سازی یا ارزش واقعی؟

به گزارش venturebeat، شرکت‌های پیشرو در حوزه هوش مصنوعی مانند OpenAI، Google DeepMind و MiniMax در یک مسابقه تسلیحاتی برای گسترش طول متن هستند، که این طول متن معادل مقدار متنی است که یک مدل هوش مصنوعی می‌تواند در یک بار پردازش کند. این وعده چیست؟ درک عمیق‌تر، کاهش توهمات (hallucinations) و تعاملات روان‌تر.

برای کسب‌وکارها، این بدان معناست که هوش مصنوعی می‌تواند کل قرارداد‌ها را تحلیل کند، پایگاه‌های کد بزرگ را اشکال‌زدایی کند یا گزارش‌های طولانی را خلاصه کند بدون اینکه متن قطع شود. امید این است که حذف روش‌های دور زدن مانند تقسیم متن (chunking) یا تولید تقویت‌شده با بازیابی (RAG) می‌تواند جریان‌های کاری هوش مصنوعی را روان‌تر و کارآمدتر کند.

حل مسئله «سوزن در انبار کاه»

مسئله «سوزن در انبار کاه» به مشکل هوش مصنوعی در شناسایی اطلاعات مهم (سوزن) پنهان در مجموعه داده‌های عظیم (انبار کاه) اشاره دارد. مدل‌های LLM اغلب جزئیات کلیدی را از دست می‌دهند که منجر به ناکارآمدی‌هایی در موارد زیر می‌شود:

جست‌و‌جو و بازیابی دانش: دستیاران هوش مصنوعی در استخراج مهم‌ترین حقایق از مخازن اسناد عظیم دچار مشکل می‌شوند.

حقوقی و انطباق: وکلا باید وابستگی‌های بند به بند را در قرارداد‌های طولانی ردیابی کنند.

تحلیل سازمانی: تحلیلگران مالی ریسک از دست دادن بینش‌های حیاتی که در گزارش‌ها مدفون شده‌اند را دارند.

پنجره‌های متنی طولانی‌تر به مدل‌ها کمک می‌کنند تا اطلاعات بیشتری را حفظ کنند و احتمالا توهمات را کاهش دهند. این بهبود دقت را تسهیل می‌کند و همچنین امکان موارد زیر را فراهم می‌کند:

بررسی انطباق بین اسناد: یک پیش‌فرات ۲۵۶ K توکنی می‌تواند کل دفترچه سیاست‌ها را در برابر قوانین جدید تحلیل کند.

ترکیب ادبیات پزشکی: محققان از پنجره‌های ۱۲۸ K+ توکنی برای مقایسه نتایج آزمایش‌های دارویی در طول دهه‌ها استفاده می‌کنند.

توسعه نرم‌افزار: اشکال‌زدایی بهبود می‌یابد وقتی هوش مصنوعی می‌تواند میلیون‌ها خط کد را بدون از دست دادن وابستگی‌ها اسکن کند.

تحقیقات مالی: تحلیلگران می‌توانند گزارش‌های کامل درآمد‌ها و داده‌های بازار را در یک پرس‌وجو تحلیل کنند.

پشتیبانی مشتری: چت‌بات‌هایی با حافظه طولانی‌تر تعاملات آگاهانه‌تری ارائه می‌دهند.

این مقاله به بررسی این موضوع می‌پردازد که آیا این مدل‌های بزرگ واقعاً ارزش تجاری قابل توجهی ایجاد می‌کنند یا صرفاً افزایش اندازه بدون بهبود‌های معنادار است.

افزایش پنجره متنی همچنین به مدل کمک می‌کند تا بهتر به جزئیات مرتبط ارجاع دهد و احتمال تولید اطلاعات نادرست یا ساختگی را کاهش دهد. یک مطالعه دانشگاه استنفورد در سال ۲۰۲۴ نشان داد که مدل‌های ۱۲۸ K توکنی نرخ توهمات (hallucination) را در مقایسه با سیستم‌های RAG وقتی در حال تحلیل توافق‌نامه‌های ادغام هستند، ۱۸٪ کاهش دادند.

با این حال، پذیرندگان اولیه چالش‌هایی را گزارش کرده‌اند: تحقیقات JPMorgan Chase نشان می‌دهد که مدل‌ها در حدود ۷۵٪ از متن عملکرد ضعیفی دارند و عملکرد آنها برای وظایف مالی پیچیده پس از ۳۲ K توکن به نزدیک صفر کاهش می‌یابد. مدل‌ها همچنان به طور گسترده در فراخوان بلندمدت مشکل دارند و اغلب به جای بینش‌های عمیق، به داده‌های اخیر اولویت می‌دهند.

این موضوع سؤالاتی را مطرح می‌کند: آیا یک پنجره متنی ۴ میلیون توکنی واقعا استدلال را بهبود می‌بخشد یا اینکه فقط گسترش هزینه‌بر حافظه است؟ مدل چه مقدار از این ورودی عظیم را واقعاً استفاده می‌کند؟ و آیا فواید آن هزینه‌های محاسباتی روزافزون را جبران می‌کند؟

تعادل اقتصادی استفاده از RAG

RAG قدرت مدل‌های زبانی بزرگ (LLMs) را با یک سیستم بازیابی ترکیب می‌کند تا اطلاعات مرتبط را از پایگاه داده خارجی یا مخزن اسناد بازیابی کند. این امر به مدل اجازه می‌دهد تا پاسخ‌ها را بر اساس دانش از پیش موجود و داده‌های به‌روز شده به‌صورت پویا تولید کند.

هنگامی که شرکت‌ها هوش مصنوعی را برای وظایف پیچیده به کار می‌گیرند، با تصمیم کلیدی مواجه می‌شوند: از پیش‌فرات‌های عظیم با پنجره‌های متنی بزرگ استفاده کنند یا به RAG تکیه کنند تا اطلاعات مرتبط را به‌صورت پویا بازیابی کند.

پیشرفت‌های بزرگ: مدل‌های با پنجره‌های توکنی بزرگ همه چیز را در یک مرحله پردازش می‌کنند و نیاز به نگهداری سیستم‌های بازیابی خارجی و ضبط بینش‌های بین‌اسنادی را کاهش می‌دهند. با این حال، این رویکرد از نظر محاسباتی گران است و هزینه‌های استنتاج و نیاز‌های حافظه بالاتری دارد.

RAG: به جای پردازش کل سند در یک زمان، RAG تنها بخش‌هایی از اطلاعات که بیشترین ارتباط را دارند، بازیابی می‌کند و سپس پاسخ تولید می‌کند. این کار مصرف توکن و هزینه‌ها را کاهش می‌دهد و آن را برای کاربرد‌های واقعی مقیاس‌پذیرتر می‌کند.

مقایسه هزینه‌های استنتاج هوش مصنوعی

اگرچه پیش‌فرات‌های بزرگ جریان‌های کاری را ساده می‌کنند، به قدرت پردازش GPU و حافظه بیشتری نیاز دارند که آنها را در مقیاس گسترده گران می‌کند. رویکرد‌های مبتنی بر RAG، با وجود نیاز به چندین مرحله بازیابی، اغلب مصرف کلی توکن را کاهش می‌دهند و منجر به کاهش هزینه‌های استنتاج بدون از دست دادن دقت می‌شوند.

برای بیشتر شرکت‌ها، بهترین رویکرد به مورد استفاده بستگی دارد:

نیاز به تحلیل عمیق اسناد؟ مدل‌های با پنجره متنی بزرگ ممکن است بهتر عمل کنند.

نیاز به هوش مصنوعی مقیاس‌پذیر و مقرون‌به‌صرفه برای پرس‌وجو‌های پویا؟ RAG احتمالاً انتخاب باهوش‌تری است.

یک پنجره متنی بزرگ زمانی ارزشمند است که کل متن باید به‌صورت یکجا تحلیل شود (مثلاً: بررسی قراردادها، تحلیل کد)، کاهش خطا‌های بازیابی حیاتی است (مثلاً: انطباق با مقررات) و تاخیر کمتر از دقت مهم‌تر است (مثلاً: تحقیقات استراتژیک).

طبق تحقیقات گوگل، مدل‌های پیش‌بینی سهام با استفاده از پنجره‌های ۱۲۸ K توکنی که ۱۰ سال گزارش‌های درآمدی را تحلیل می‌کنند، عملکرد بهتری نسبت به RAG داشتند (۲۹٪). از طرف دیگر، آزمایش‌های داخلی GitHub Copilot نشان داد که برای مهاجرت به مونورپو‌ها (monorepos)، این مدل‌ها ۲٫۳ برابر سریع‌تر از RAG کار می‌کنند.

محدودیت‌های مدل‌های با پنجره متنی بزرگ: تأخیر، هزینه‌ها و کاربردپذیری

اگرچه مدل‌های با پنجره متنی بزرگ قابلیت‌های چشمگیری ارائه می‌دهند، محدودیت‌هایی در میزان متن اضافی که واقعاً مفید است وجود دارد. با گسترش پنجره‌های متنی، سه عامل کلیدی وارد بازی می‌شوند:

تأخیر: هرچه مدل توکن بیشتری پردازش کند، استنتاج کندتر می‌شود. پنجره‌های متنی بزرگ می‌توانند منجر به تأخیر‌های قابل توجهی شوند، به‌ویژه وقتی که نیاز به پاسخ‌های بلادرنگ باشد.

هزینه‌ها: با هر توکن اضافی که پردازش می‌شود، هزینه‌های محاسباتی افزایش می‌یابد. گسترش زیرساخت‌ها برای مدیریت این مدل‌های بزرگ می‌تواند به‌ویژه برای شرکت‌هایی با حجم کاری بالا، بسیار گران شود.

کاربردپذیری: با افزایش متن، توانایی مدل برای «تمرکز» مؤثر بر اطلاعات بیشترین ارتباط کاهش می‌یابد. این می‌تواند منجر به پردازش ناکارآمد شود که داده‌های کم‌ارتباط بر عملکرد مدل تأثیر می‌گذارد و به بازدهی کاهش‌یافته در دقت و کارایی منجر می‌شود.

تکنیک Infini-attention گوگل سعی دارد این تعادل‌ها را با ذخیره‌سازی نمایش‌های فشرده از متن با طول دلخواه با حافظه محدود جبران کند. با این حال، فشرده‌سازی منجر به از دست دادن اطلاعات می‌شود و مدل‌ها در موازنه بین اطلاعات فوری و تاریخی مشکل دارند. این امر منجر به کاهش عملکرد و افزایش هزینه‌ها در مقایسه با RAG سنتی می‌شود.

نیاز به جهت‌گیری در مسابقه پنجره متنی

اگرچه مدل‌های ۴ میلیون توکنی چشمگیر هستند، شرکت‌ها باید از آنها به‌عنوان ابزار‌های تخصصی به جای راه‌حل‌های جهانی استفاده کنند. آینده در سیستم‌های ترکیبی است که به‌صورت تطبیقی بین RAG و پیش‌فرات‌های بزرگ انتخاب می‌کنند.

شرکت‌ها باید بین مدل‌های با پنجره متنی بزرگ و RAG بر اساس پیچیدگی استدلال، هزینه و تأخیر انتخاب کنند. پنجره‌های متنی بزرگ برای وظایفی که نیاز به درک عمیق دارند ایده‌آل هستند، در حالی که RAG برای وظایف ساده‌تر و واقعی‌تر مقرون‌به‌صرفه‌تر و کارآمدتر است. شرکت‌ها باید محدودیت‌های هزینه‌ای مشخصی تعیین کنند، مثلاً ۰٫۵۰ دلار به ازای هر وظیفه، زیرا مدل‌های بزرگ می‌توانند گران شوند. علاوه بر این، پیش‌فرات‌های بزرگ برای وظایف آفلاین مناسب‌تر هستند، در حالی که سیستم‌های RAG در کاربرد‌های بلادرنگ که نیاز به پاسخ‌های سریع دارند، برجسته عمل می‌کنند.

نوآوری‌های نوظهور مانند GraphRAG می‌توانند این سیستم‌های تطبیقی را بیشتر تقویت کنند. GraphRAG با ادغام گراف‌های دانش با روش‌های بازیابی برداری سنتی که روابط پیچیده را بهتر ثبت می‌کنند، استدلال ظریف‌تر و دقت پاسخ را تا ۳۵٪ در مقایسه با رویکرد‌های مبتنی بر بردار بهبود می‌دهد. پیاده‌سازی‌های اخیر توسط شرکت‌هایی مانند Lettria نشان داده‌اند که دقت از ۵۰٪ با RAG سنتی به بیش از ۸۰٪ با استفاده از GraphRAG در سیستم‌های بازیابی ترکیبی افزایش یافته است.

همان‌طور که یوری کوراتوف هشدار می‌دهد: «گسترش متن بدون بهبود استدلال مانند ساخت جاده‌های گسترده‌تر برای ماشین‌هایی است که نمی‌توانند فرمان بدهند.» آینده هوش مصنوعی در مدل‌هایی است که واقعاً روابط را در هر اندازه‌ای از متن درک می‌کنند.

انتهای پیام/