MLE Bench 66.6% наближається до Gemini 3.1, досягти такого рівня на одному токені з 9.8B параметрів, деталі об’єднання віконного FIFO та префіксного дерева заслуговують на ретельне вивчення, ефективність тренування довгих послідовностей була опанована MiniMax.

Переглянути оригінал
BlockBeatNews
Розкриття карт: MiniMax опублікував технічний звіт M2, детально описуючи базу MoE та систему тренування агентів
Цей документ систематизує технічний звіт серії M2 MiniMax, описує перехід від гібридної лінійної уваги M1 до повної уваги, а також зменшення витрат на тренування за допомогою MTP, маршрутизації Sigmoid, Forge на стороні тренування. Вперше розкривається Forge та механізм самовдосконалення M2.7 для агентського RL довгих послідовностей, що використовує віконний FIFO та об’єднання з префіксним деревом, що дозволяє збільшити швидкість тренування до 40 разів на довгих послідовностях. Самовдосконалювальний замкнутий цикл M2.7 може виконати понад 100 раундів аналізу, редагування коду, запуску тестів та відкату, що підвищує ефективність приблизно на 30%. При 9.8 мільярдів параметрів на один токен, SWE-Pro досягає 56.22%, MLE Bench — 66.6%, що близько до Gemini 3.1.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено