MLE Bench 66.6% próximo ao Gemini 3.1, alcançar esse nível com 9.8B de parâmetros por token, os detalhes da fusão de FIFO com janela e árvore de prefixo valem a pena serem estudados, a eficiência do treinamento de sequências longas foi conquistada pelo MiniMax

Ver original
BlockBeatNews
Decodificando a mão: MiniMax lança relatório técnico M2, detalhando a base MoE e o sistema de treinamento de agentes
Este artigo revisa o relatório técnico da série M2 do MiniMax, descrevendo a troca da atenção linear híbrida do M1 para atenção total, bem como o alívio de custos no lado de treinamento com MTP, roteamento Sigmoid e Forge. A primeira divulgação do mecanismo de auto-evolução Forge e M2.7 do agente RL de sequência longa, usando janelas FIFO e fusão de árvores de prefixo, com uma taxa de treinamento até 40 vezes maior em sequências longas. O ciclo de auto-evolução de M2.7 pode completar mais de 100 rodadas de análise, modificação de código, execução de avaliações e rollback, com um aumento de aproximadamente 30%. Com 9,8 bilhões de parâmetros por token, SWE-Pro alcança 56,22%, MLE Bench 66,6%, aproximando-se do Gemini 3.1.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado