شاومي تكشف تفاصيل تدريب نموذج 1T MiMo-V2-Pro: الآلاف من وحدات معالجة الرسومات المستخدمة، لا مستويات وظيفة أو مواعيد نهائية

robot
إنشاء الملخص قيد التقدم

وفقًا للمراقبة بواسطة دونتشا بيتينغ، كشفت لوه فولي، رئيسة فريق النماذج الكبيرة من شاومي، في أول مقابلة متعمقة لها أن نموذج MiMo-V2-Pro لديه إجمالي عدد معلمات يبلغ 1 تيرابايت، ويستخدم آلاف وحدات المعالجة الرسومية للتدريب. تعتقد أن حجم 1 تيرابايت هو الحد الأدنى لتحقيق أداء قريب من كلود أوبوس 4.6 وتأمين الدخول إلى المرحلة التالية من منافسة الوكلاء. على المستوى الفني، يدفع إصدار البرو نسبة الانتباه العالمي إلى الانتباه بنوافذ الانزلاق إلى نسبة نادرة جدًا تبلغ 7:1، مما يتحكم في تكلفة التفكير للنصوص الطويلة مع توسيع عدد المعلمات، ويستمر في استخدام بنية MTP ( التنبؤ متعدد الرموز ) للاستفادة من القدرة الحاسوبية الزائدة لتسريع الاستنتاج. من ناحية الإدارة، يشارك حوالي 30 إلى 40 من أعضاء فريق MiMo المئة مباشرة في التكرارات الأساسية، دون وجود مستويات وظيفية محددة، أو تقسيمات واضحة للمجموعات، أو مواعيد تسليم. عند مواجهة مشكلات رقمية غير مستقرة مثل التغير المفاجئ في خسارة التدريب، يختار الفريق إيقاف التدريب لإجراء استكشاف الأخطاء وإصلاحها، حتى لو استغرق ذلك أسبوعًا أو أسبوعين وتكبد ملايين الدولارات في تكاليف الحوسبة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت