DeepSeek V4 duplica los tokens frente a V3, enfrentando inestabilidad por valores atípicos en MoE y picos impulsados por enrutamiento; dos soluciones—Enrutamiento Anticipatorio (pérdida-disparador, ~20% de cálculo adicional) y Limitación SwiGLU (límite de activación)—abordan los problemas aunque los principios siguen sin estar claros. Zhang los llama curitas, pero transparentes.Resumen: Este informe resume los desafíos de entrenamiento de DeepSeek V4 y las estrategias de mitigación. V4-Flash y V4-Pro fueron preentrenados con 32T y 33T de tokens, aproximadamente duplicando los ~15T de V3, y experimentaron una inestabilidad significativa por valores atípicos en el proceso de enrutamiento MoE, con picos en la pérdida y retrocesos ineficaces. El Enrutamiento Anticipatorio desacopla las actualizaciones del índice de enrutamiento del entrenamiento principal y se activa automáticamente ante picos de pérdida, con aproximadamente un 20% de cálculo adicional; la Limitación SwiGLU constriñe las activaciones a un rango fijo para suprimir valores atípicos. Ambos métodos fueron efectivos, aunque sus principios subyacentes aún no se comprenden completamente. Susan Zhang de Google DeepMind calificó los cambios como curitas pragmáticas, alabando la transparencia del proyecto.

AirdropBlackHole

2026-04-27 02:14:01

Generación de resúmenes en curso

Según la monitorización de Dongcha Beating, el informe técnico de DeepSeek V4 revela que V4-Flash y V4-Pro fueron preentrenados con 32T y 33T de tokens respectivamente, duplicando los aproximadamente 15T tokens utilizados en V3. El informe admite que el proceso de entrenamiento enfrentó “desafíos de inestabilidad significativa”, con ocurrencias repetidas de picos de pérdida (aumentos repentinos en la pérdida de entrenamiento) atribuidos a valores atípicos en la capa MoE, y el propio mecanismo de enrutamiento exacerba estos valores atípicos, haciendo que los retrocesos simples sean ineficaces. DeepSeek ha identificado dos soluciones que se han aplicado en el entrenamiento real: Enrutamiento Anticipatorio, que desacopla los cálculos del índice de enrutamiento de las actualizaciones de la red principal y se activa automáticamente solo cuando se detecta un pico de pérdida, incurriendo en una sobrecarga adicional de aproximadamente un 20%; y Limitación SwiGLU, que limita los valores de activación a un rango fijo para suprimir directamente los valores atípicos. El informe afirma que ambos métodos son efectivos, pero reconoce que “los principios subyacentes aún no se comprenden completamente”. La investigadora de Google DeepMind, Susan Zhang, que anteriormente trabajó en Meta AI y OpenAI, comentó que la inestabilidad causada por el doble de datos de entrenamiento “explica el retraso”, describiendo estas dos soluciones como “curitas”, y también afirmó la transparencia técnica de DeepSeek.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
286.81K Popularidad
#
比特币Breaks79K
11.69M Popularidad
#
IsraelStrikesIranBTCPlunges
34.47K Popularidad
#
CryptoMarketsRiseBroadly
93.83K Popularidad
#
WHCADinnerShootingIncident
17.46K Popularidad

Anclado

Investigador de DeepMind especula sobre la demora de DeepSeek V4: los datos de entrenamiento se duplicaron a 33T causando una inestabilidad severa

Temas de actualidad

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Anclado