Investigadores de DeepMind especulan sobre la razón del retraso de DeepSeek V4: la duplicación de los datos de entrenamiento a 33T provoca una inestabilidad grave.

robot
Generación de resúmenes en curso
ME News 消息,24 de abril (UTC+8), según el monitoreo de 动察 Beating, el informe técnico de DeepSeek V4 revela que V4-Flash y V4-Pro se preentrenaron en 32T y 33T tokens respectivamente, duplicando los aproximadamente 15T tokens de V3. El informe admite que durante el entrenamiento "se encontraron desafíos significativos de inestabilidad", loss spike (aumento repentino de la pérdida de entrenamiento) apareció repetidamente, la raíz se debe a los valores atípicos en la capa MoE, y el mecanismo de enrutamiento en sí mismo agrava estos valores atípicos, una simple reversión no puede solucionarlo de raíz. DeepSeek encontró dos soluciones y las ha aplicado en el entrenamiento real: Anticipatory Routing (enrutamiento anticipatorio), que desacopla el cálculo del índice de enrutamiento de la actualización de la red troncal, se activa automáticamente solo cuando se detecta un loss spike, con una sobrecarga adicional de aproximadamente el 20%; SwiGLU Clamping, que sujeta los valores de activación a un rango fijo para suprimir directamente los valores atípicos. El informe afirma que ambos son efectivos, pero admite que "los principios subyacentes aún no se comprenden completamente". La investigadora de Google DeepMind, Susan Zhang (que trabajó anteriormente en Meta AI y OpenAI), comentó que la inestabilidad provocada por duplicar los datos de entrenamiento "explica el retraso", describió estas dos soluciones como "vendajes", y al mismo tiempo elogió la transparencia técnica de DeepSeek. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado