Resumen: La entrevista con Luo Fuli describe el MiMo-V2-Pro de Xiaomi, un modelo con billones de parámetros y gran carga de GPU que apunta a capacidades similares a Claude Opus 4.6. Utiliza atención extremadamente dispersa con MTP; los riesgos operativos incluyen un equipo reducido y con poca estructura que detiene el entrenamiento cuando las pérdidas aumentan, incurriendo en costos elevados.Se informa que el MiMo-V2-Pro tiene 1 billón de parámetros entrenados en miles de GPUs, con el objetivo de alcanzar un rendimiento similar a Claude Opus 4.6. Utiliza atención extremadamente dispersa (7:1) con MTP; un equipo pequeño detiene el entrenamiento inestable para solucionar problemas, arriesgando millones en costos.

AirdropBlackHole

2026-04-24 06:31:18

Generación de resúmenes en curso

Según la monitorización de Dongcha Beating, Luo Fuli, jefa del equipo de modelos grandes de Xiaomi, reveló en su primera entrevista en profundidad que la base del modelo MiMo-V2-Pro tiene un total de 1 billón de parámetros, utilizando miles de GPUs para el entrenamiento. Ella cree que una escala de 1 billón es la línea base para lograr un rendimiento cercano a Claude Opus 4.6 y asegurar la entrada a la próxima fase de competencia de agentes. A nivel técnico, la versión Pro lleva el ratio de atención global a atención de ventana deslizante a un ratio escaso extremo de 7:1, controlando el coste de razonamiento para textos largos mientras expande el conteo de parámetros, y continúa usando la arquitectura MTP (Predicción de Múltiples Tokens) para aprovechar el exceso de potencia computacional para una inferencia acelerada. En el aspecto de gestión, solo unas 30 a 40 de las cien miembros del equipo MiMo participan directamente en las iteraciones principales, sin niveles de trabajo establecidos, divisiones claras de grupos ni plazos de entrega. Cuando enfrentan problemas numéricos inestables, como cambios repentinos en la pérdida de entrenamiento, el equipo opta por detener el entrenamiento para solucionar problemas, incluso si eso significa parar una o dos semanas y generar millones en costos de computación.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
160.43K Popularidad
#
CryptoMarketSeesVolatility
225.13K Popularidad
#
IsraelStrikesIranBTCPlunges
31.84K Popularidad
#
rsETHAttackUpdate
69.76K Popularidad
#
US-IranTalksStall
177.52K Popularidad

Anclado

Xiaomi revela detalles de entrenamiento del modelo 1T MiMo-V2-Pro: miles de GPUs utilizadas, sin niveles de trabajo ni plazos

Temas de actualidad

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Anclado