Según Beating Monitoring, la doctora en Princeton Zhang Yifan reveló detalles clave de DeepSeek V4 en X: 1.6T en total, V4-Lite 285B; atención DSA2, fusionando DSA/NSA, 512 cabezas de dimensión, soporta Sparse MQA y ventanas deslizantes; experto MoE384, activando 6, usando Fused MoE Mega-Kernel, conexiones hiperconectadas con residuales. La capacitación utilizó el optimizador Muon, 32K de contexto, fase RL GRPO+KL, finalmente extendido a 1M, modalidad de texto puro. Zhang no está en DeepSeek, la oficina no ha respondido.

BlockBeatNews

2026-04-22 14:06:01

Generación de resúmenes en curso

Según el monitoreo de Beating, el doctorando de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. Él anunció el 19 de abril que “V4 estará la próxima semana” y enumeró los nombres de tres componentes de la arquitectura, esta noche proporcionó la tabla completa de parámetros, y además reveló por primera vez la existencia de una versión ligera V4-Lite con 285 mil millones de parámetros.

El total de parámetros de V4 es de 1.6 billones. La mecanismo de atención es DSA2, que combina las dos soluciones de atención dispersa utilizadas previamente en DeepSeek en V3.2, DSA (DeepSeek Sparse Attention) y NSA (Native Sparse Attention) propuesta en un artículo a principios de este año, con head-dim de 512, junto con Sparse MQA y SWA (atención de ventana deslizante). La capa MoE cuenta con 384 expertos, activándose 6 a la vez, usando Fused MoE Mega-Kernel. La conexión residual sigue el método Hyper-Connections.

Los detalles revelados por primera vez en la fase de entrenamiento incluyen: el optimizador usado es Muon (un optimizador matricial que aplica la ortogonalización de Newton-Schulz en la actualización de momentum), la longitud del contexto de preentrenamiento es de 32K, y en la fase de aprendizaje reforzado se usa GRPO con corrección de divergencia KL. La longitud del contexto final se amplió a 1 millón. La modalidad es solo texto.

Zhang no ocupa un cargo en DeepSeek, y la compañía no ha respondido a la información anterior.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
Gate13thAnniversaryLive
1.05M Popularidad
#
WCTCTradingChallengeShare8MUSDT
787.68K Popularidad
#
BitcoinBouncesBack
161.05K Popularidad
#
IsraelStrikesIranBTCPlunges
30.66K Popularidad
#
EthereumMemeSeasonReturns
1.99M Popularidad

Anclado

Yifan Zhang revela las especificaciones técnicas completas de DeepSeek V4: 1.6T de parámetros, 384 expertos activados en 6

Temas de actualidad

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Anclado