Investigador de DeepMind especula que la razón del retraso de DeepSeek V4: el doble de datos de entrenamiento a 33T causó una inestabilidad grave

Según la monitorización de Beating, el informe técnico de DeepSeek V4 revela que V4-Flash y V4-Pro se preentrenaron en 32T y 33T tokens respectivamente, en comparación con aproximadamente 15T tokens de V3, duplicando la cantidad. El informe admite que durante el entrenamiento se enfrentaron a «desafíos significativos de inestabilidad», con picos de pérdida (loss spike) que aparecían repetidamente, y la raíz del problema radicaba en valores atípicos en la capa MoE, además de que el mecanismo de enrutamiento agravaba estos valores anómalos, por lo que un simple retroceso no podía resolverlo completamente.

DeepSeek encontró dos soluciones que ya se aplican en el entrenamiento real: enrutamiento anticipatorio, que desacopla el cálculo del índice de enrutamiento y la actualización de la red principal, activándose automáticamente solo cuando se detecta un pico de pérdida, con un costo adicional de aproximadamente un 20%; y el bloqueo SwiGLU, que limita los valores de activación a un rango fijo para suprimir directamente los valores anómalos. El informe afirma que ambas son efectivas, pero reconoce que «los principios subyacentes aún no se comprenden completamente».

La investigadora de DeepMind de Google, Susan Zhang (que trabajó en Meta AI y OpenAI), comentó que la inestabilidad provocada por duplicar los datos de entrenamiento «explica el retraso», y describió estas dos soluciones como «curitas», además de elogiar la transparencia técnica de DeepSeek.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado