كشفت شركة Xiaomi عن تفاصيل تدريب نموذج MiMo-V2-Pro بحجم 1T: استخدم آلاف البطاقات، بدون رتبة وظيفية وبدون موعد نهائي.

robot
إنشاء الملخص قيد التقدم
ME News رسالة، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، كشف لوه فولي، رئيس فريق النماذج الكبيرة في Xiaomi، في أول مقابلة متعمقة له أن إجمالي عدد المعلمات الأساسية لنموذج MiMo-V2-Pro يصل إلى 1 تريليون، وقد تم استخدام آلاف وحدات معالجة الرسومات في التدريب. وهي ترى أن حجم 1 تريليون هو حاليًا الحد الأدنى المطلوب لتحقيق مستوى مشابه لمستوى Claude Opus 4.6 والحصول على تذكرة الدخول في مرحلة المنافسة القادمة للوكلاء. على المستوى التقني، يدفع الإصدار Pro نسبة الانتباه الشامل إلى الانتباه المنزلق إلى النسبة المتناثرة القصوى 7:1، مما يتحكم في تكلفة الاستدلال للنصوص الطويلة عند زيادة عدد المعلمات، ويواصل استخدام بنية MTP (التنبؤ بعدة رموز) لاستخدام القدرة الحسابية الفائضة لتسريع الاستدلال. على المستوى الإداري، في فريق MiMo الذي يضم مئة شخص، يشارك فقط ثلاثون أو أربعون شخصًا بشكل مباشر في التكرار الأساسي، ولا يحتوي الفريق على مستويات وظيفية، ولا يوجد تقسيم واضح للمجموعات أو مواعيد نهائية للتسليم. عند مواجهة مشكلات عددية غير مستقرة مثل القفزات في خسارة التدريب، يختار الفريق إيقاف التدريب مباشرة للتحقق، حتى لو توقف لمدة أسبوع أو أسبوعين، بتكلفة ملايين من القدرات الحسابية. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت