De la atención lineal mixta a la atención completa, enrutamiento Sigmoid y optimización de entrenamiento Forge, las decisiones de ingeniería en M2.7 para agentes RL en secuencias largas son bastante interesantes, con una mejora del 30% en 100 rondas de autoevolución en ciclo cerrado, estos datos son bastante sólidos para un modelo de 9.8B de parámetros.

Ver original
BlockBeatNews
Descifrando la carta oculta: MiniMax publica el informe técnico M2, detallando la base MoE y el sistema de entrenamiento de agentes
Este artículo revisa el informe técnico de la serie M2 de MiniMax, describe la compensación entre la atención lineal híbrida de M1 y la atención completa, así como la mitigación de costos en el lado de entrenamiento de MTP, enrutamiento Sigmoid y Forge. La primera divulgación del mecanismo de autoevolución Forge y M2.7 para agentes RL de secuencias largas, que utiliza ventanas FIFO fusionadas con árboles de prefijos, logra una mejora en la velocidad de entrenamiento de hasta 40 veces en secuencias largas. El ciclo de autoevolución de M2.7 puede completar más de 100 rondas de análisis, modificación de código, evaluación y retroceso, con una mejora de aproximadamente el 30%. Con 9.8 mil millones de parámetros por token, SWE-Pro alcanza un 56.22%, MLE Bench un 66.6%, acercándose a Gemini 3.1.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado