Ao passar do atenção linear mista de volta à atenção total, roteamento Sigmoid e otimização de treinamento Forge, as escolhas de engenharia do M2.7 em RL de agentes para sequências longas são bastante interessantes, com uma melhoria de 30% após 100 rodadas de autoevolução em ciclo fechado, esses dados são bastante competitivos para uma escala de 9,8 bilhões de parâmetros.

Ver original
BlockBeatNews
Decifrar a mão escondida: MiniMax publica o relatório técnico M2, detalhando a base MoE e o sistema de treino de Agentes
Este artigo resume o relatório técnico da série M2 do MiniMax, descrevendo a troca da atenção linear híbrida do M1 por atenção total, bem como o alívio de custos no lado de treino de MTP, roteamento Sigmoid e Forge. A primeira divulgação do mecanismo de auto-evolução Forge e M2.7 do agente RL de sequência longa, usando janelas FIFO e fusão de árvores de prefixo, com uma taxa de treino até 40 vezes maior em sequências longas. O ciclo de auto-evolução de M2.7 pode completar mais de 100 rodadas de análise, modificação de código, execução de avaliações e rollback, com uma melhoria de aproximadamente 30%. Com 9,8 bilhões de parâmetros por token, SWE-Pro alcança 56,22%, MLE Bench 66,6%, aproximando-se do Gemini 3.1.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado