Yifan Zhang revela las especificaciones técnicas completas de DeepSeek V4: 1.6T de parámetros, 384 expertos activados en 6

robot
Generación de resúmenes en curso

Según el monitoreo de Beating, el doctorando de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. Él anunció el 19 de abril que “V4 estará la próxima semana” y enumeró los nombres de tres componentes de la arquitectura, esta noche proporcionó la tabla completa de parámetros, y además reveló por primera vez la existencia de una versión ligera V4-Lite con 285 mil millones de parámetros.

El total de parámetros de V4 es de 1.6 billones. La mecanismo de atención es DSA2, que combina las dos soluciones de atención dispersa utilizadas previamente en DeepSeek en V3.2, DSA (DeepSeek Sparse Attention) y NSA (Native Sparse Attention) propuesta en un artículo a principios de este año, con head-dim de 512, junto con Sparse MQA y SWA (atención de ventana deslizante). La capa MoE cuenta con 384 expertos, activándose 6 a la vez, usando Fused MoE Mega-Kernel. La conexión residual sigue el método Hyper-Connections.

Los detalles revelados por primera vez en la fase de entrenamiento incluyen: el optimizador usado es Muon (un optimizador matricial que aplica la ortogonalización de Newton-Schulz en la actualización de momentum), la longitud del contexto de preentrenamiento es de 32K, y en la fase de aprendizaje reforzado se usa GRPO con corrección de divergencia KL. La longitud del contexto final se amplió a 1 millón. La modalidad es solo texto.

Zhang no ocupa un cargo en DeepSeek, y la compañía no ha respondido a la información anterior.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado