Bench MLE 66.6% cercano a Gemini 3.1, logrando este nivel con 9.8B de parámetros por token, los detalles de la combinación de FIFO con ventana y árbol de prefijos merecen una lectura cuidadosa, la eficiencia en entrenamiento de secuencias largas ha sido abordada por MiniMax.

Ver original
BlockBeatNews
Descifrando la carta oculta: MiniMax publica el informe técnico M2, detallando la base MoE y el sistema de entrenamiento de agentes
Este artículo revisa el informe técnico de la serie M2 de MiniMax, describe la compensación entre la atención lineal híbrida de M1 y la atención completa, así como la mitigación de costos en el lado de entrenamiento de MTP, enrutamiento Sigmoid y Forge. La primera divulgación del mecanismo de autoevolución Forge y M2.7 para agentes RL de secuencias largas, que utiliza ventanas FIFO fusionadas con árboles de prefijos, logra una mejora en la velocidad de entrenamiento de hasta 40 veces en secuencias largas. El ciclo de autoevolución de M2.7 puede completar más de 100 rondas de análisis, modificación de código, evaluación y retroceso, con una mejora de aproximadamente el 30%. Con 9.8 mil millones de parámetros por token, SWE-Pro alcanza un 56.22%, MLE Bench un 66.6%, acercándose a Gemini 3.1.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado