كشفت شاومي عن تفاصيل تدريب نموذج 1T MiMo-V2-Pro: تم استخدام الآلاف من وحدات معالجة الرسومات، لا مستويات وظيفة أو مواعيد نهائية

robot
إنشاء الملخص قيد التقدم

وفقًا للمراقبة التي أجرتها Dongcha Beating، كشفت لوه فولي، رئيسة فريق النماذج الكبيرة في شاومي، في أول مقابلة متعمقة لها أن نموذج MiMo-V2-Pro لديه إجمالي عدد معلمات يبلغ 1 تريليون، ويستخدم آلاف وحدات المعالجة الرسومية للتدريب. تعتقد أن حجم 1 تريليون هو الحد الأدنى لتحقيق أداء قريب من Claude Opus 4.6 وتأمين الدخول إلى المرحلة التالية من منافسة الوكلاء. على المستوى الفني، يدفع إصدار Pro نسبة الانتباه العالمي إلى الانتباه بنوافذ التمرير إلى نسبة نادرة جدًا تبلغ 7:1، مما يتحكم في تكلفة التفكير للنصوص الطويلة مع توسيع عدد المعلمات، ويستمر في استخدام بنية MTP (Multi-Token Prediction) للاستفادة من القدرة الحاسوبية الزائدة لتسريع الاستنتاج. من ناحية الإدارة، يشارك حوالي 30 إلى 40 من أعضاء فريق MiMo المئة مباشرة في التكرارات الأساسية، دون وجود مستويات وظيفية محددة، أو تقسيمات واضحة للمجموعات، أو مواعيد تسليم. عند مواجهة مشكلات رقمية غير مستقرة مثل التغير المفاجئ في خسارة التدريب، يختار الفريق إيقاف التدريب لإجراء استكشاف الأخطاء وإصلاحها، حتى لو استغرق ذلك أسبوعًا أو أسبوعين وتكبد ملايين الدولارات في تكاليف الحوسبة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت