MLE Bench 66.6% близко к Gemini 3.1, достигнуть этого уровня с одним токеном 9.8B параметров, детали объединения оконного FIFO и префиксного дерева заслуживают внимательного изучения, эффективность обучения длинных последовательностей была взята на себя MiniMax

Посмотреть Оригинал
BlockBeatNews
Раскрытие секретов: MiniMax опубликовала технический отчет M2, подробно описывающий платформу MoE и систему обучения агентов
Данная статья систематизирует технический отчет серии MiniMax M2, описывает переход от смешанной линейной внимания M1 к полномасштабному вниманию, а также рассматривает снижение затрат на推训端 с помощью MTP, маршрутизации Sigmoid и Forge. Впервые раскрывается механизм Forge и самосовершенствование Agent RL на длинных последовательностях с M2.7, использующий оконный FIFO и объединение с префиксным деревом, что позволяет увеличить скорость обучения до 40 раз на длинных последовательностях. Самосовершенствование замкнутого цикла M2.7 может выполнять более 100 циклов анализа, исправления кода, тестирования и отката, повышая эффективность примерно на 30%. При использовании 9.8 миллиардов параметров на один токен, показатели SWE-Pro достигают 56.22%, MLE Bench — 66.6%, что близко к Gemini 3.1.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено