De atenção linear mista para atenção total, roteamento Sigmoid e otimização de treinamento Forge, a escolha de engenharia do M2.7 em RL de agentes de sequências longas é bastante interessante, com uma melhoria de 30% após 100 rodadas de autoevolução em ciclo fechado, esses dados são bastante competitivos para uma escala de 9,8 bilhões de parâmetros.

Ver original
BlockBeatNews
Decodificando a mão: MiniMax lança relatório técnico M2, detalhando a base MoE e o sistema de treinamento de agentes
Este artigo revisa o relatório técnico da série M2 do MiniMax, descrevendo a troca da atenção linear híbrida do M1 para atenção total, bem como o alívio de custos no lado de treinamento com MTP, roteamento Sigmoid e Forge. A primeira divulgação do mecanismo de auto-evolução Forge e M2.7 do agente RL de sequência longa, usando janelas FIFO e fusão de árvores de prefixo, com uma taxa de treinamento até 40 vezes maior em sequências longas. O ciclo de auto-evolução de M2.7 pode completar mais de 100 rodadas de análise, modificação de código, execução de avaliações e rollback, com um aumento de aproximadamente 30%. Com 9,8 bilhões de parâmetros por token, SWE-Pro alcança 56,22%, MLE Bench 66,6%, aproximando-se do Gemini 3.1.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado