DeepSeek-V۳-۰۳۲۴، مدل هوش مصنوعی چینی که بازی قدرت در دنیای AI را دگرگون کرد

این مدل بهصورت رایگان برای استفاده تجاری در دسترس قرار دارد، یک حرکت استراتژیک که دسترسی به فناوری پیشرفته را برای همه آسان کرده است. همچنین گزارشهای اولیه نشان میدهند که این مدل میتواند مستقیما روی سختافزارهای مصرفکننده اجرا شود، بهویژه روی Mac Studio با چیپ M۳ Ultra.
اونی هانون، محقق هوش مصنوعی، در شبکههای اجتماعی نوشت: «مدل جدید DeepSeek-V۳-۰۳۲۴ در حالت ۴-بیتی با سرعت بیش از ۲۰ توکن در ثانیه روی M۳ Ultra با ۵۱۲ گیگابایت حافظه با استفاده از mlx-lm اجرا میشود!» اگرچه Mac Studio با قیمت ۹،۴۹۹ دلار ممکن است تعریف «سختافزار مصرفکننده» را کش بدهد، اما توانایی اجرای یک مدل اینچنین عظیم بهصورت محلی، تغییر بزرگی نسبت به نیازهای مراکز دادهای است که معمولا با مدلهای پیشرفته هوش مصنوعی همراه است.
استراتژی انتشار پنهانی برای تحول در بازار هوش مصنوعی
این مدل ۶۸۵ میلیارد پارامتری بدون هیچ سفینه سفید (whitepaper)، پست وبلاگ یا فعالیت بازاریابی ظاهر شد، فقط یک فایل README خالی و وزنهای خود مدل. این رویکرد بهوضوح با انتشار محصولات طراحیشده دقیقاً توسط شرکتهای هوش مصنوعی غربی تفاوت دارد، جایی که ماهها هیجانزده کردن معمولاً قبل از انتشار واقعی وجود دارد.
به گزارش venturebeat، آزمایشکنندگان اولیه گزارش میدهند که بهبودهای قابلتوجهی نسبت به نسخه قبلی وجود دارد. زئوفون، محقق هوش مصنوعی، در یک پست در X.com اعلام کرد: «مدل جدید DeepSeek V۳ را روی تستهای داخلی خود امتحان کردم و در تمام معیارها و تستها پرش بزرگی داشت. اکنون بهترین مدل غیراستدلالی است و Sonnet ۳.۵ را از جایگاه خود کنار زده است.»
برخلاف Sonnet که نیاز به اشتراک دارد، وزنهای DeepSeek-V۳-۰۳۲۴ بهصورت رایگان برای همه قابل دانلود و استفاده هستند.
معماری پیشگام، کارایی بینظیر با منابع محدود
DeepSeek-V۳-۰۳۲۴ از معماری مخلوط متخصصان (MoE) استفاده میکند که بهطور بنیادی نحوه عملکرد مدلهای زبانی بزرگ را دوباره تصور میکند. مدلهای سنتی تمام پارامترهای خود را برای هر وظیفه فعال میکنند، اما رویکرد DeepSeek فقط حدود ۳۷ میلیارد از ۶۸۵ میلیارد پارامتر خود را در وظایف خاص فعال میکند.
این فعالسازی انتخابی نشاندهنده تغییر الگو در بهرهوری مدل است. با فعال کردن فقط پارامترهای «متخصص» مرتبط برای هر وظیفه خاص، DeepSeek عملکردی مشابه مدلهای بزرگتر کاملاً فعال ارائه میدهد در حالی که تقاضاهای محاسباتی را بهطور چشمگیری کاهش میدهد.
این مدل شامل دو فناوری پیشگام دیگر است:
۱- توجه پنهان چندسری (MLA): این فناوری توانایی مدل را برای حفظ متن در طول متنهای طولانی افزایش میدهد.
۲- پیشبینی چندتوکنی (MTP): بهجای رویکرد معمول تولید یک توکن در هر مرحله، این فناوری چندین توکن را بهصورت همزمان تولید میکند.
این نوآوریها سرعت خروجی را تقریباً ۸۰ درصد افزایش میدهند. سایمون ویلسون، سازنده ابزارهای توسعهدهنده، در یک پست وبلاگ نوشت که نسخه ۴-بیتی کوانتیزه حجم ذخیرهسازی را به ۳۵۲ گیگابایت کاهش میدهد، که اجرای آن را روی سختافزار مصرفکننده سطح بالا مانند Mac Studio با چیپ M۳ Ultra امکانپذیر میکند.
این موضوع نشاندهنده یک تغییر احتمالاً مهم در استقرار هوش مصنوعی است. در حالی که زیرساختهای سنتی هوش مصنوعی معمولاً به چندین GPU از Nvidia که چندین کیلووات انرژی مصرف میکنند، متکی هستند، Mac Studio در حین استنتاج کمتر از ۲۰۰ وات مصرف میکند. این شکاف بهرهوری نشان میدهد که صنعت هوش مصنوعی ممکن است نیاز داشته باشد فرضیات خود درباره نیازهای زیرساختی برای عملکرد مدلهای برتر را دوباره ارزیابی کند.
انقلاب منبعباز
استراتژی انتشار DeepSeek نمونهای از واگرایی بنیادین در فلسفه کسبوکار هوش مصنوعی بین شرکتهای چینی و غربی است. در حالی که رهبران آمریکایی مانند OpenAI و Anthropic مدلهای خود را پشت دروازههای پولی نگه میدارند، شرکتهای هوش مصنوعی چینی بهطور فزایندهای به مجوزهای منبعباز مجازی روی آوردهاند.
این رویکرد بهسرعت اکوسیستم هوش مصنوعی چین را دگرگون میکند. دسترسی آزاد به مدلهای پیشرفته اثر ضربشوندهای ایجاد میکند که استارتاپها، محققان و توسعهدهندگان بتوانند بدون هزینههای سرمایهای سنگین بر پایه فناوری هوش مصنوعی پیشرفته ساختوساز کنند. این موضوع تواناییهای هوش مصنوعی چین را با سرعتی که مشاهدهکنندگان غربی را شوکه کرده است، تسریع کرده است.
منطق تجاری پشت این استراتژی بازتابدهنده واقعیتهای بازار در چین است. با وجود رقبای پولدار متعدد، حفظ رویکرد انحصاری هنگامی که رقبا قابلیتهای مشابه را بهصورت رایگان ارائه میدهند، بهسرعت دشوار میشود. منبعباز کردن مسیرهای ارزش جایگزینی از طریق رهبری اکوسیستم، خدمات API و راهحلهای سازمانی که بر پایه مدلهای بنیادی رایگان ساخته شدهاند، ایجاد میکند.
حتی غولهای فناوری ثابتی چینی نیز این تغییر را تشخیص دادهاند. Baidu اعلام کرد که قصد دارد تا ژوئن مدل سری Ernie ۴.۵ را منبعباز کند، در حالی که Alibaba و Tencent مدلهای هوش مصنوعی منبعباز با قابلیتهای تخصصی منتشر کردهاند. این حرکت در مقابل استراتژی محور API استفادهشده توسط رهبران غربی قرار میگیرد.
دقت فنی بیشتر، گرمی کمتر
یکی از تغییرات برجسته در DeepSeek-V۳-۰۳۲۴، سبک ارتباطی آن است. در حالی که نسخههای قبلی این مدل به دلیل "گفتار انسانوار" و نزدیکی به زبان طبیعی شناخته میشدند، نسخه جدید بهسمت "دقت فنی" و "سبک تحلیلی" حرکت کرده است.
انتهای پیام/