ME News رسالة، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، كشف لوه فولي، رئيس فريق النماذج الكبيرة في Xiaomi، في أول مقابلة متعمقة له أن إجمالي عدد المعلمات الأساسية لنموذج MiMo-V2-Pro يصل إلى 1 تريليون، وقد تم استخدام آلاف وحدات معالجة الرسومات في التدريب. وهي ترى أن حجم 1 تريليون هو حاليًا الحد الأدنى المطلوب لتحقيق مستوى مشابه لمستوى Claude Opus 4.6 والحصول على تذكرة الدخول في مرحلة المنافسة القادمة للوكلاء. على المستوى التقني، يدفع الإصدار Pro نسبة الانتباه الشامل إلى الانتباه المنزلق إلى النسبة المتناثرة القصوى 7:1، مما يتحكم في تكلفة الاستدلال للنصوص الطويلة عند زيادة عدد المعلمات، ويواصل استخدام بنية MTP (التنبؤ بعدة رموز) لاستخدام القدرة الحسابية الفائضة لتسريع الاستدلال. على المستوى الإداري، في فريق MiMo الذي يضم مئة شخص، يشارك فقط ثلاثون أو أربعون شخصًا بشكل مباشر في التكرار الأساسي، ولا يحتوي الفريق على مستويات وظيفية، ولا يوجد تقسيم واضح للمجموعات أو مواعيد نهائية للتسليم. عند مواجهة مشكلات عددية غير مستقرة مثل القفزات في خسارة التدريب، يختار الفريق إيقاف التدريب مباشرة للتحقق، حتى لو توقف لمدة أسبوع أو أسبوعين، بتكلفة ملايين من القدرات الحسابية. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateCompletesDividendDistribution
541.92K درجة الشعبية
#
CirclePlunges17%
4.16M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
67.53K درجة الشعبية
#
PredictWorldCupShare20000U
169.05K درجة الشعبية
#
GateCardPointsSystemLaunched
121.53K درجة الشعبية

مُثبت

خريطة الموقع

كشفت شركة Xiaomi عن تفاصيل تدريب نموذج MiMo-V2-Pro بحجم 1T: استخدم آلاف البطاقات، بدون رتبة وظيفية وبدون موعد نهائي.

المواضيع الرائجة

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

مُثبت