نسخه جدید هوش مصنوعی دیپ سیک منتشر شد
شرکت چینی دیپسیک نسخه 3.1 مدل بزرگ زبانی خود را معرفی کرد که با افزایش طول پنجره متنی تا 128 هزارتوکن و افزایش تعداد پارامترها به 685 میلیارد، توانایی پردازش و عملکرد مدل را بهشکل قابل توجهی بهبود داده است.

براساس گزارشها ویژگی متمایز دیپسیک V3.1، توانایی مدیریت متنهای طولانی است؛ این مدل اکنون قادر است اطلاعات معادل یک کتاب ۳۰۰ تا ۴۰۰ صفحهای را پردازش کند. این قابلیت باعث بهبود عملکرد در تولید محتوای طولانی، تحلیل اسناد و انجام مکالمات چندمرحلهای میشود. شرکت اعلام کرده که این امکان پیشتر در نسخه داخلی V3 وجود داشت، اما اکنون در تمامی رابطها بهطور رسمی فعال شده است.
DeepSeek 3.1 همچنان بر پایه معماری Mixture-of-Experts (MoE) ساخته شده است و فقط ۳۷ میلیارد پارامتر در هر توکن فعال میشود. این مدل از فرمتهای مختلف دقت شامل BF16 ،FP8 و F32 پشتیبانی میکند تا در محیطهای متنوع انعطافپذیری بیشتری داشته باشد. توسعهدهندگان میتوانند از طریق API یا از طریق Hugging Face به این مدل دسترسی پیدا کنند.
در ارزیابیهای اولیه، دیپسیک V3.1 با کسب امتیاز ۷۱.۶ درصد در آزمون کدنویسی Aider، عملکردی بالاتر از Claude Opus 4 داشت و به یکی از قویترین مدلهای متنباز برای برنامهنویسی تبدیل شد. این مدل همچنین در حل مسائل ریاضی و منطقی پیشرفت چشمگیری نشان داد، اگرچه برخی کاربران تغییر قابل توجهی در توانایی استدلال آن نسبت به مدل R1-0528 قبلی مشاهده نکردند.
شرکت دیپسیک تمامی ارجاعات به مدل R1 را از رابط چتبات حذف کرده و به سمت معماری هیبریدی پیش رفته است. قابلیتهای استدلال اکنون در V3.1 ادغام شدهاند و دیگر نیازی به مدل جداگانه نیست. هزینه آموزش این نسخه هنوز مشخص نشده، اما نسخه اصلی V3 با استفاده از ۲.۷۸۸ میلیون ساعت GPU روی تراشههای انویدیا H800 و با هزینه تقریبی ۵.۶ میلیون دلار آموزش داده شده بود که پایهای برای نسخه جدید بهشمار میرود.
در شرایطی که انتظار میرفت مدل بعدی R2 با تمرکز بر بهبود تواناییهای استدلال منتشر شود، دیپسیک حالا نسخه V3.1 را منتشر کرده است. گزارشها نشان میدهد که مشکلات فنی تراشههای Huawei Ascend موجب تأخیر در عرضه R2 شده است. ظاهراً آموزش مدل روی تراشههای Ascend بهدلیل ناسازگاریها موفقیتآمیز نبوده و شرکت مجبور شده از پردازشگرهای گرافیکی انویدیا برای آموزش استفاده کند و Ascend را تنها برای استنتاج نگه دارد. این رویکرد ترکیبی باعث پیچیدگی و کندی روند توسعه شده و عرضه را به تعویق انداخته است.
تا زمان عرضه مدل R2 هوش مصنوعی دیپ سیک، نسخه V3.1 بهعنوان پرچمدار فعلی دیپسیک باقی میماند و قادر است هم وظایف استدلالی و هم غیراستدلالی را در یک چارچوب یکپارچه اجرا و مدیریت کند.
منبع: دیجیاتو