بالانتقال من انتباه خطي مختلط إلى انتباه كامل، وتوجيه Sigmoid وتحسين تدريب Forge، فإن التوازن الهندسي في M2.7 على وكيل RL للسلاسل الطويلة مثير للاهتمام، حيث حقق زيادة بنسبة 30% بعد 100 دورة من التطور الذاتي المغلق، وهذه البيانات تعتبر قوية جدًا بالنسبة لحجم 9.8 مليار معلمة

شاهد النسخة الأصلية
BlockBeatNews
فك شفرة الورقة الرابحة: MiniMax تصدر تقرير تقنية M2، يوضح بالتفصيل منصة MoE ونظام تدريب الوكيل
يستعرض هذا المقال تقرير تقنية سلسلة M2 من MiniMax، ويصف التوازن بين الانتباه الخطي المختلط في M1 والانتباه الكامل، بالإضافة إلى تقليل التكاليف في جانب التدريب باستخدام MTP، والتوجيه بواسطة Sigmoid، وForge. الكشف الأول عن آلية التطور الذاتي لوكيل RL للسلسلة الطويلة Forge و M2.7، باستخدام نافذة FIFO المجمعة وشجرة البادئة، حيث يمكن أن تصل سرعة التدريب إلى 40 ضعفًا في السلاسل الطويلة. يمكن لنظام التطور الذاتي المغلق في M2.7 إكمال أكثر من 100 دورة من التحليل، وتعديل الشفرة، وتشغيل التقييمات، والرجوع، مع زيادة حوالي 30%. تحت 9.8 مليار معلمة للرمز الواحد، حققت SWE-Pro نسبة 56.22%، وMLE Bench نسبة 66.6%، مما يقرب من أداء Gemini 3.1.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت