Xiaomi revela detalles del entrenamiento del modelo MiMo-V2-Pro de 1T: uso de miles de tarjetas, sin jerarquía ni fecha límite.

robot
Generación de resúmenes en curso
ME News noticia, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, Luo Fuli, jefe del equipo de modelos grandes de Xiaomi, reveló en su primera entrevista en profundidad que el modelo base MiMo-V2-Pro tiene un total de 1T de parámetros y su entrenamiento utilizó miles de GPU. Ella cree que la escala de 1T es actualmente el límite mínimo para alcanzar un nivel cercano a Claude Opus 4.6 y obtener el boleto de entrada para la competencia de Agentes en la siguiente etapa. A nivel técnico, la versión Pro lleva la proporción de atención global a atención de ventana deslizante a una relación de escasez extrema de 7:1, controlando el costo de inferencia de texto largo al aumentar la cantidad de parámetros, y continúa utilizando la arquitectura MTP (predicción de múltiples tokens) para aprovechar el excedente de potencia computacional y acelerar la inferencia. A nivel de gestión, de un equipo de cien personas en MiMo, solo treinta o cuarenta están directamente involucrados en la iteración central. El equipo no tiene niveles de puesto, ni divisiones de grupos claras, ni plazos de entrega. Cuando se encuentran problemas numéricos inestables como saltos en la pérdida durante el entrenamiento, el equipo opta por detener el entrenamiento directamente para investigar, incluso si eso significa detenerse durante una o dos semanas y gastar millones en costos computacionales. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado