Según la monitorización de Dongcha Beating, el estudiante de doctorado de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. Él adelantó ‘V4 la próxima semana’ el 19 de abril y enumeró tres nombres de componentes de arquitectura, proporcionando una tabla completa de parámetros esta noche, además de revelar por primera vez la existencia de una versión ligera, V4-Lite, con 285 mil millones de parámetros. El total de parámetros para V4 es de 1.6 billones. El mecanismo de atención es DSA2, que combina dos esquemas de atención dispersa: DSA (DeepSeek Sparse Attention) utilizado en V3.2 y NSA (Native Sparse Attention) propuesto en un artículo a principios de este año. La dimensión de la cabeza es 512, emparejada con Sparse MQA y SWA (Sliding Window Attention). La capa MoE tiene un total de 384 expertos, con 6 activados a la vez, usando Fused MoE Mega-Kernel. Las conexiones residuales siguen a Hyper-Connections. Los detalles revelados para la fase de entrenamiento incluyen: el optimizador utilizado es Muon (un optimizador a nivel de matriz que aplica la ortogonalización de Newton-Schulz a las actualizaciones de momento), con una longitud de contexto de pre-entrenamiento de 32K, y la fase de aprendizaje por refuerzo usando GRPO con corrección de divergencia KL añadida. La longitud de contexto final se extiende a 1M. La modalidad es texto puro. Zhang no ocupa un puesto en DeepSeek, y DeepSeek no ha respondido a la información anterior.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
Gate13thAnniversaryLive
1.16M Popularidad
#
WCTCTradingChallengeShare8MUSDT
781.94K Popularidad
#
BitcoinBouncesBack
201.77K Popularidad
#
IsraelStrikesIranBTCPlunges
30.62K Popularidad
#
USIranTalksProgress
786.74K Popularidad

Anclado

Yifan Zhang revela las especificaciones técnicas completas de DeepSeek V4: 1.6T parámetros, 384 expertos con 6 activados

Temas de actualidad

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Anclado