اختبار MLE بنسبة 66.6% قريب من Gemini 3.1، وتحقيق هذا المستوى باستخدام 9.8 مليار معلمة لكل رمز، تفاصيل دمج FIFO الموجّه بالنوافذ وشجرة البادئة تستحق الدراسة، وكفاءة تدريب السلاسل الطويلة تم استيعابها بواسطة MiniMax.

شاهد النسخة الأصلية
BlockBeatNews
فك شفرة الورقة الرابحة: MiniMax تصدر تقرير تقنية M2، يوضح بالتفصيل منصة MoE ونظام تدريب الوكيل
يستعرض هذا المقال تقرير تقنية سلسلة M2 من MiniMax، ويصف التوازن بين الانتباه الخطي المختلط في M1 والانتباه الكامل، بالإضافة إلى تقليل التكاليف في جانب التدريب باستخدام MTP، والتوجيه بواسطة Sigmoid، وForge. الكشف الأول عن آلية التطور الذاتي لوكيل RL للسلسلة الطويلة Forge و M2.7، باستخدام نافذة FIFO المجمعة وشجرة البادئة، حيث يمكن أن تصل سرعة التدريب إلى 40 ضعفًا في السلاسل الطويلة. يمكن لنظام التطور الذاتي المغلق في M2.7 إكمال أكثر من 100 دورة من التحليل، وتعديل الشفرة، وتشغيل التقييمات، والرجوع، مع زيادة حوالي 30%. تحت 9.8 مليار معلمة للرمز الواحد، حققت SWE-Pro نسبة 56.22%، وMLE Bench نسبة 66.6%، مما يقرب من أداء Gemini 3.1.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت