Xiaomi revela detalles de entrenamiento del modelo 1T MiMo-V2-Pro: miles de GPUs utilizadas, sin niveles de trabajo ni plazos

robot
Generación de resúmenes en curso

Según la monitorización de Dongcha Beating, Luo Fuli, jefa del equipo de modelos grandes de Xiaomi, reveló en su primera entrevista en profundidad que la base del modelo MiMo-V2-Pro tiene un total de 1 billón de parámetros, utilizando miles de GPUs para el entrenamiento. Ella cree que una escala de 1 billón es la línea base para lograr un rendimiento cercano a Claude Opus 4.6 y asegurar la entrada a la próxima fase de competencia de agentes. A nivel técnico, la versión Pro lleva el ratio de atención global a atención de ventana deslizante a un ratio escaso extremo de 7:1, controlando el coste de razonamiento para textos largos mientras expande el conteo de parámetros, y continúa usando la arquitectura MTP (Predicción de Múltiples Tokens) para aprovechar el exceso de potencia computacional para una inferencia acelerada. En el aspecto de gestión, solo unas 30 a 40 de las cien miembros del equipo MiMo participan directamente en las iteraciones principales, sin niveles de trabajo establecidos, divisiones claras de grupos ni plazos de entrega. Cuando enfrentan problemas numéricos inestables, como cambios repentinos en la pérdida de entrenamiento, el equipo opta por detener el entrenamiento para solucionar problemas, incluso si eso significa parar una o dos semanas y generar millones en costos de computación.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado