Yifan Zhang revela las especificaciones técnicas completas de DeepSeek V4: 1.6T parámetros, 384 expertos con 6 activados

Según la monitorización de Dongcha Beating, el estudiante de doctorado de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. Él adelantó ‘V4 la próxima semana’ el 19 de abril y enumeró tres nombres de componentes de arquitectura, proporcionando una tabla completa de parámetros esta noche, además de revelar por primera vez la existencia de una versión ligera, V4-Lite, con 285 mil millones de parámetros. El total de parámetros para V4 es de 1.6 billones. El mecanismo de atención es DSA2, que combina dos esquemas de atención dispersa: DSA (DeepSeek Sparse Attention) utilizado en V3.2 y NSA (Native Sparse Attention) propuesto en un artículo a principios de este año. La dimensión de la cabeza es 512, emparejada con Sparse MQA y SWA (Sliding Window Attention). La capa MoE tiene un total de 384 expertos, con 6 activados a la vez, usando Fused MoE Mega-Kernel. Las conexiones residuales siguen a Hyper-Connections. Los detalles revelados para la fase de entrenamiento incluyen: el optimizador utilizado es Muon (un optimizador a nivel de matriz que aplica la ortogonalización de Newton-Schulz a las actualizaciones de momento), con una longitud de contexto de pre-entrenamiento de 32K, y la fase de aprendizaje por refuerzo usando GRPO con corrección de divergencia KL añadida. La longitud de contexto final se extiende a 1M. La modalidad es texto puro. Zhang no ocupa un puesto en DeepSeek, y DeepSeek no ha respondido a la información anterior.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado