الملخص: يوضح اللقاء مع لو فولي نموذج Xiaomi MiMo-V2-Pro، وهو نموذج ضخم يحتوي على تريليون معلمة ويعتمد بشكل كبير على وحدات معالجة الرسوميات، ويهدف إلى تحقيق قدرات مماثلة لمستوى كلود أوبوس 4.6. يستخدم انتباهًا نادرًا جدًا مع تقنية MTP؛ وتشمل المخاطر التشغيلية فريقًا صغيرًا غير منظم يتوقف عن التدريب عندما ترتفع الخسائر، مما يتسبب في تكاليف كبيرة.يُقال إن MiMo-V2-Pro يحتوي على تريليون معلمة تم تدريبه على آلاف وحدات معالجة الرسوميات، بهدف تحقيق أداء مماثل لمستوى كلود أوبوس 4.6. يستخدم انتباهًا نادرًا جدًا (7:1) مع تقنية MTP؛ يتوقف فريق صغير عن التدريب غير المستقر لاستكشاف الأخطاء وإصلاحها، مما يعرضه لمخاطر تكاليف بملايين الدولارات.

AirdropBlackHole

2026-04-24 06:31:18

إنشاء الملخص قيد التقدم

وفقًا للمراقبة التي أجرتها Dongcha Beating، كشفت لوه فولي، رئيسة فريق النماذج الكبيرة في شاومي، في أول مقابلة متعمقة لها أن نموذج MiMo-V2-Pro لديه إجمالي عدد معلمات يبلغ 1 تريليون، ويستخدم آلاف وحدات المعالجة الرسومية للتدريب. تعتقد أن حجم 1 تريليون هو الحد الأدنى لتحقيق أداء قريب من Claude Opus 4.6 وتأمين الدخول إلى المرحلة التالية من منافسة الوكلاء. على المستوى الفني، يدفع إصدار Pro نسبة الانتباه العالمي إلى الانتباه بنوافذ التمرير إلى نسبة نادرة جدًا تبلغ 7:1، مما يتحكم في تكلفة التفكير للنصوص الطويلة مع توسيع عدد المعلمات، ويستمر في استخدام بنية MTP (Multi-Token Prediction) للاستفادة من القدرة الحاسوبية الزائدة لتسريع الاستنتاج. من ناحية الإدارة، يشارك حوالي 30 إلى 40 من أعضاء فريق MiMo المئة مباشرة في التكرارات الأساسية، دون وجود مستويات وظيفية محددة، أو تقسيمات واضحة للمجموعات، أو مواعيد تسليم. عند مواجهة مشكلات رقمية غير مستقرة مثل التغير المفاجئ في خسارة التدريب، يختار الفريق إيقاف التدريب لإجراء استكشاف الأخطاء وإصلاحها، حتى لو استغرق ذلك أسبوعًا أو أسبوعين وتكبد ملايين الدولارات في تكاليف الحوسبة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
156.69K درجة الشعبية
#
CryptoMarketSeesVolatility
222.87K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
31.65K درجة الشعبية
#
rsETHAttackUpdate
68.69K درجة الشعبية
#
US-IranTalksStall
176.02K درجة الشعبية

تثبيت

خريطة الموقع

كشفت شاومي عن تفاصيل تدريب نموذج 1T MiMo-V2-Pro: تم استخدام الآلاف من وحدات معالجة الرسومات، لا مستويات وظيفة أو مواعيد نهائية

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

تثبيت