Yifan Zhang revela las especificaciones técnicas completas de DeepSeek V4: 1.6T de parámetros, 384 expertos activados en 6

robot
Generación de resúmenes en curso
Noticias de ME News, 22 de abril (UTC+8), según la monitorización de Dongcha Beating, la doctora en Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. Ella anunció el 19 de abril que "V4 estará la próxima semana" y enumeró tres componentes de la arquitectura, esta noche proporcionó la tabla completa de parámetros, además de revelar por primera vez una versión ligera V4-Lite con 285 mil millones de parámetros. La capacidad total de V4 es de 1.6 billones. El mecanismo de atención es DSA2, que combina DSA (Atención Escasa Profunda) utilizado anteriormente en V3.2 y NSA (Atención Escasa Nativa) propuesto en un artículo a principios de este año, con configuraciones de atención escasa, cabeza-dim 512, junto con Sparse MQA y SWA (Atención de Ventana Deslizante). La capa MoE cuenta con 384 expertos, activándose 6 a la vez, usando Fused MoE Mega-Kernel. La conexión residual sigue el método Hyper-Connections. Los detalles divulgados por primera vez en la fase de entrenamiento incluyen: optimizador Muon (un optimizador matricial que aplica la ortogonalización de Newton-Schulz en la actualización de momentum), longitud de contexto de preentrenamiento de 32K, y en la fase de aprendizaje reforzado se usa GRPO con corrección de divergencia KL. La longitud de contexto final se amplió a 1 millón. La modalidad es solo texto. Zhang no trabaja en DeepSeek, y la compañía no ha respondido a esta información. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado