Investigador de DeepMind especula sobre la demora de DeepSeek V4: los datos de entrenamiento se duplicaron a 33T causando una inestabilidad severa

robot
Generación de resúmenes en curso

Según la monitorización de Dongcha Beating, el informe técnico de DeepSeek V4 revela que V4-Flash y V4-Pro fueron preentrenados con 32T y 33T de tokens respectivamente, duplicando los aproximadamente 15T tokens utilizados en V3. El informe admite que el proceso de entrenamiento enfrentó “desafíos de inestabilidad significativa”, con ocurrencias repetidas de picos de pérdida (aumentos repentinos en la pérdida de entrenamiento) atribuidos a valores atípicos en la capa MoE, y el propio mecanismo de enrutamiento exacerba estos valores atípicos, haciendo que los retrocesos simples sean ineficaces. DeepSeek ha identificado dos soluciones que se han aplicado en el entrenamiento real: Enrutamiento Anticipatorio, que desacopla los cálculos del índice de enrutamiento de las actualizaciones de la red principal y se activa automáticamente solo cuando se detecta un pico de pérdida, incurriendo en una sobrecarga adicional de aproximadamente un 20%; y Limitación SwiGLU, que limita los valores de activación a un rango fijo para suprimir directamente los valores atípicos. El informe afirma que ambos métodos son efectivos, pero reconoce que “los principios subyacentes aún no se comprenden completamente”. La investigadora de Google DeepMind, Susan Zhang, que anteriormente trabajó en Meta AI y OpenAI, comentó que la inestabilidad causada por el doble de datos de entrenamiento “explica el retraso”, describiendo estas dos soluciones como “curitas”, y también afirmó la transparencia técnica de DeepSeek.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado