الملخص: يوضح اللقاء مع لو فولي نموذج Xiaomi MiMo-V2-Pro، وهو نموذج ضخم يحتوي على تريليون معلمة ويعتمد بشكل كبير على وحدات معالجة الرسوميات، ويهدف إلى تحقيق قدرات مماثلة لمستوى كلود أوبوس 4.6. يستخدم انتباهًا نادرًا جدًا مع تقنية MTP؛ وتشمل المخاطر التشغيلية فريقًا صغيرًا غير منظم يتوقف عن التدريب عندما ترتفع الخسائر، مما يؤدي إلى تكاليف كبيرة.يُقال إن MiMo-V2-Pro يحتوي على تريليون معلمة تم تدريبه على آلاف وحدات معالجة الرسوميات، بهدف تحقيق أداء مماثل لمستوى كلود أوبوس 4.6. يستخدم انتباهًا نادرًا جدًا (7:1) مع تقنية MTP؛ يتوقف فريق صغير عن التدريب غير المستقر لاستكشاف الأخطاء وإصلاحها، مما يعرضه لمخاطر تكاليف بملايين الدولارات.

AirdropBlackHole

2026-04-26 10:18:31

إنشاء الملخص قيد التقدم

وفقًا للمراقبة بواسطة دونتشا بيتينغ، كشفت لوه فولي، رئيسة فريق النماذج الكبيرة من شاومي، في أول مقابلة متعمقة لها أن نموذج MiMo-V2-Pro لديه إجمالي عدد معلمات يبلغ 1 تيرابايت، ويستخدم آلاف وحدات المعالجة الرسومية للتدريب. تعتقد أن حجم 1 تيرابايت هو الحد الأدنى لتحقيق أداء قريب من كلود أوبوس 4.6 وتأمين الدخول إلى المرحلة التالية من منافسة الوكلاء. على المستوى الفني، يدفع إصدار البرو نسبة الانتباه العالمي إلى الانتباه بنوافذ الانزلاق إلى نسبة نادرة جدًا تبلغ 7:1، مما يتحكم في تكلفة التفكير للنصوص الطويلة مع توسيع عدد المعلمات، ويستمر في استخدام بنية MTP ( التنبؤ متعدد الرموز ) للاستفادة من القدرة الحاسوبية الزائدة لتسريع الاستنتاج. من ناحية الإدارة، يشارك حوالي 30 إلى 40 من أعضاء فريق MiMo المئة مباشرة في التكرارات الأساسية، دون وجود مستويات وظيفية محددة، أو تقسيمات واضحة للمجموعات، أو مواعيد تسليم. عند مواجهة مشكلات رقمية غير مستقرة مثل التغير المفاجئ في خسارة التدريب، يختار الفريق إيقاف التدريب لإجراء استكشاف الأخطاء وإصلاحها، حتى لو استغرق ذلك أسبوعًا أو أسبوعين وتكبد ملايين الدولارات في تكاليف الحوسبة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
255.64K درجة الشعبية
#
CryptoMarketSeesVolatility
311.17K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
33.58K درجة الشعبية
#
rsETHAttackUpdate
108.81K درجة الشعبية
#
US-IranTalksStall
498.16K درجة الشعبية

تثبيت

خريطة الموقع

شاومي تكشف تفاصيل تدريب نموذج 1T MiMo-V2-Pro: الآلاف من وحدات معالجة الرسومات المستخدمة، لا مستويات وظيفة أو مواعيد نهائية

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

تثبيت