MLE Bench 66,6% próximo do Gemini 3.1, com um token único de 9,8 bilhões de parâmetros atingindo esse nível, os detalhes da fusão de FIFO com janela e árvore de prefixo merecem uma leitura cuidadosa, a eficiência do treinamento de sequências longas foi conquistada pelo MiniMax

Ver original
BlockBeatNews
Decifrar a mão escondida: MiniMax publica o relatório técnico M2, detalhando a base MoE e o sistema de treino de Agentes
Este artigo resume o relatório técnico da série M2 do MiniMax, descrevendo a troca da atenção linear híbrida do M1 por atenção total, bem como o alívio de custos no lado de treino de MTP, roteamento Sigmoid e Forge. A primeira divulgação do mecanismo de auto-evolução Forge e M2.7 do agente RL de sequência longa, usando janelas FIFO e fusão de árvores de prefixo, com uma taxa de treino até 40 vezes maior em sequências longas. O ciclo de auto-evolução de M2.7 pode completar mais de 100 rodadas de análise, modificação de código, execução de avaliações e rollback, com uma melhoria de aproximadamente 30%. Com 9,8 bilhões de parâmetros por token, SWE-Pro alcança 56,22%, MLE Bench 66,6%, aproximando-se do Gemini 3.1.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado