۰۶/ فروردين /۱۴۰۴
12:16 05 / 01 /1404

DeepSeek-V۳-۰۳۲۴، مدل هوش مصنوعی چینی که بازی قدرت در دنیای AI را دگرگون کرد

DeepSeek-V۳-۰۳۲۴، مدل هوش مصنوعی چینی که بازی قدرت در دنیای AI را دگرگون کرد
استارت‌آپ چینی DeepSeek به‌تازگی مدل زبانی بزرگ جدیدی منتشر کرده که نه‌تنها به دلیل توانایی‌های فنی، بلکه به خاطر رویکرد انقلابی در استقرار آن، موجی در صنعت هوش مصنوعی ایجاد کرده است. این مدل ۶۴۱ گیگابایتی، با نام DeepSeek-V۳-۰۳۲۴ بدون هیچ اعلام رسمی در مخزن هوش مصنوعی Hugging Face ظاهر شد و ادامه‌دهنده الگوی انتشار‌های کم‌صدا، اما تأثیرگذار این شرکت است.

این مدل به‌صورت رایگان برای استفاده تجاری در دسترس قرار دارد، یک حرکت استراتژیک که دسترسی به فناوری پیشرفته را برای همه آسان کرده است. همچنین گزارش‌های اولیه نشان می‌دهند که این مدل می‌تواند مستقیما روی سخت‌افزار‌های مصرف‌کننده اجرا شود، به‌ویژه روی Mac Studio با چیپ M۳ Ultra.
اونی هانون، محقق هوش مصنوعی، در شبکه‌های اجتماعی نوشت: «مدل جدید DeepSeek-V۳-۰۳۲۴ در حالت ۴-بیتی با سرعت بیش از ۲۰ توکن در ثانیه روی M۳ Ultra با ۵۱۲ گیگابایت حافظه با استفاده از mlx-lm اجرا می‌شود!» اگرچه Mac Studio با قیمت ۹،۴۹۹ دلار ممکن است تعریف «سخت‌افزار مصرف‌کننده» را کش بدهد، اما توانایی اجرای یک مدل این‌چنین عظیم به‌صورت محلی، تغییر بزرگی نسبت به نیاز‌های مراکز داده‌ای است که معمولا با مدل‌های پیشرفته هوش مصنوعی همراه است.
استراتژی انتشار پنهانی برای تحول در بازار هوش مصنوعی
این مدل ۶۸۵ میلیارد پارامتری بدون هیچ سفینه سفید (whitepaper)، پست وبلاگ یا فعالیت بازاریابی ظاهر شد، فقط یک فایل README خالی و وزن‌های خود مدل. این رویکرد به‌وضوح با انتشار محصولات طراحی‌شده دقیقاً توسط شرکت‌های هوش مصنوعی غربی تفاوت دارد، جایی که ماه‌ها هیجان‌زده کردن معمولاً قبل از انتشار واقعی وجود دارد.

به گزارش venturebeat، آزمایش‌کنندگان اولیه گزارش می‌دهند که بهبود‌های قابل‌توجهی نسبت به نسخه قبلی وجود دارد. زئوفون، محقق هوش مصنوعی، در یک پست در X.com اعلام کرد: «مدل جدید DeepSeek V۳ را روی تست‌های داخلی خود امتحان کردم و در تمام معیار‌ها و تست‌ها پرش بزرگی داشت. اکنون بهترین مدل غیراستدلالی است و Sonnet ۳.۵ را از جایگاه خود کنار زده است.»
برخلاف Sonnet که نیاز به اشتراک دارد، وزن‌های DeepSeek-V۳-۰۳۲۴ به‌صورت رایگان برای همه قابل دانلود و استفاده هستند.
معماری پیشگام، کارایی بی‌نظیر با منابع محدود
DeepSeek-V۳-۰۳۲۴ از معماری مخلوط متخصصان (MoE) استفاده می‌کند که به‌طور بنیادی نحوه عملکرد مدل‌های زبانی بزرگ را دوباره تصور می‌کند. مدل‌های سنتی تمام پارامتر‌های خود را برای هر وظیفه فعال می‌کنند، اما رویکرد DeepSeek فقط حدود ۳۷ میلیارد از ۶۸۵ میلیارد پارامتر خود را در وظایف خاص فعال می‌کند.
این فعال‌سازی انتخابی نشان‌دهنده تغییر الگو در بهره‌وری مدل است. با فعال کردن فقط پارامتر‌های «متخصص» مرتبط برای هر وظیفه خاص، DeepSeek عملکردی مشابه مدل‌های بزرگ‌تر کاملاً فعال ارائه می‌دهد در حالی که تقاضا‌های محاسباتی را به‌طور چشمگیری کاهش می‌دهد.
این مدل شامل دو فناوری پیشگام دیگر است:
۱- توجه پنهان چندسری (MLA): این فناوری توانایی مدل را برای حفظ متن در طول متن‌های طولانی افزایش می‌دهد.
۲- پیش‌بینی چندتوکنی (MTP): به‌جای رویکرد معمول تولید یک توکن در هر مرحله، این فناوری چندین توکن را به‌صورت همزمان تولید می‌کند.
این نوآوری‌ها سرعت خروجی را تقریباً ۸۰ درصد افزایش می‌دهند. سایمون ویلسون، سازنده ابزار‌های توسعه‌دهنده، در یک پست وبلاگ نوشت که نسخه ۴-بیتی کوانتیزه حجم ذخیره‌سازی را به ۳۵۲ گیگابایت کاهش می‌دهد، که اجرای آن را روی سخت‌افزار مصرف‌کننده سطح بالا مانند Mac Studio با چیپ M۳ Ultra امکان‌پذیر می‌کند.
این موضوع نشان‌دهنده یک تغییر احتمالاً مهم در استقرار هوش مصنوعی است. در حالی که زیرساخت‌های سنتی هوش مصنوعی معمولاً به چندین GPU از Nvidia که چندین کیلووات انرژی مصرف می‌کنند، متکی هستند، Mac Studio در حین استنتاج کمتر از ۲۰۰ وات مصرف می‌کند. این شکاف بهره‌وری نشان می‌دهد که صنعت هوش مصنوعی ممکن است نیاز داشته باشد فرضیات خود درباره نیاز‌های زیرساختی برای عملکرد مدل‌های برتر را دوباره ارزیابی کند.
انقلاب منبع‌باز

استراتژی انتشار DeepSeek نمونه‌ای از واگرایی بنیادین در فلسفه کسب‌وکار هوش مصنوعی بین شرکت‌های چینی و غربی است. در حالی که رهبران آمریکایی مانند OpenAI و Anthropic مدل‌های خود را پشت دروازه‌های پولی نگه می‌دارند، شرکت‌های هوش مصنوعی چینی به‌طور فزاینده‌ای به مجوز‌های منبع‌باز مجازی روی آورده‌اند.

این رویکرد به‌سرعت اکوسیستم هوش مصنوعی چین را دگرگون می‌کند. دسترسی آزاد به مدل‌های پیشرفته اثر ضرب‌شونده‌ای ایجاد می‌کند که استارتاپ‌ها، محققان و توسعه‌دهندگان بتوانند بدون هزینه‌های سرمایه‌ای سنگین بر پایه فناوری هوش مصنوعی پیشرفته ساخت‌وساز کنند. این موضوع توانایی‌های هوش مصنوعی چین را با سرعتی که مشاهده‌کنندگان غربی را شوکه کرده است، تسریع کرده است.

منطق تجاری پشت این استراتژی بازتاب‌دهنده واقعیت‌های بازار در چین است. با وجود رقبای پول‌دار متعدد، حفظ رویکرد انحصاری هنگامی که رقبا قابلیت‌های مشابه را به‌صورت رایگان ارائه می‌دهند، به‌سرعت دشوار می‌شود. منبع‌باز کردن مسیر‌های ارزش جایگزینی از طریق رهبری اکوسیستم، خدمات API و راه‌حل‌های سازمانی که بر پایه مدل‌های بنیادی رایگان ساخته شده‌اند، ایجاد می‌کند.

گوشتیران
قالیشویی ادیب

حتی غول‌های فناوری ثابتی چینی نیز این تغییر را تشخیص داده‌اند. Baidu اعلام کرد که قصد دارد تا ژوئن مدل سری Ernie ۴.۵ را منبع‌باز کند، در حالی که Alibaba و Tencent مدل‌های هوش مصنوعی منبع‌باز با قابلیت‌های تخصصی منتشر کرده‌اند. این حرکت در مقابل استراتژی محور API استفاده‌شده توسط رهبران غربی قرار می‌گیرد.

دقت فنی بیشتر، گرمی کمتر
یکی از تغییرات برجسته در DeepSeek-V۳-۰۳۲۴، سبک ارتباطی آن است. در حالی که نسخه‌های قبلی این مدل به دلیل "گفتار انسان‌وار" و نزدیکی به زبان طبیعی شناخته می‌شدند، نسخه جدید به‌سمت "دقت فنی" و "سبک تحلیلی" حرکت کرده است.

انتهای پیام/

ارسال نظر