DeepSeek anuncia la vista previa de la serie V4, licencia MIT, pesos ya disponibles en HuggingFace y ModelScope. V4-Pro1.6T, V4-Flash284B, ambos soportan un contexto de aproximadamente 1M, con activaciones de 49B y 13B respectivamente. Actualizado a atención híbrida CSA+HCA, hiperconexión mHC, optimización Muon, datos de entrenamiento superiores a 32T. Dos fases de entrenamiento posterior: SFT/GRPO para cultivar expertos en el campo y luego destilación en línea combinada. Pro-Max es la fuente abierta más potente, la inferencia se acerca a la vanguardia; Flash-Max, con un presupuesto de pensamiento suficiente, también se acerca a Pro, pero su escala está limitada. Los pesos utilizan precisión mixta FP4+FP8.

BlockBeatNews

2026-04-24 03:22:40

Generación de resúmenes en curso

Según la monitorización de Beating, versión preliminar de la serie V4 de DeepSeek de código abierto, licencia MIT, pesos ya disponibles en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con un total de 1.6T de parámetros y 49B (490 millones) de activaciones por token; V4-Flash con un total de 284B (2840 millones) de parámetros y 13B (130 millones) de activaciones. Ambos soportan un contexto de aproximadamente 1M de tokens.

Tres mejoras en la arquitectura: mecanismo de atención híbrido (atención dispersa comprimida CSA + atención comprimida intensiva HCA) que reduce significativamente el coste de contexto largo, en un contexto de 1M de tokens, la inferencia de FLOPs por token en V4-Pro es solo el 27% de V3.2, y la caché KV (memoria de GPU que almacena información histórica durante la inferencia) es solo el 10% de V3.2; la restricción de la forma de la manifold y la conexión superconectada mHC reemplazan las conexiones residuales tradicionales, mejorando la estabilidad en la propagación de señales entre capas; el entrenamiento se aceleró usando el optimizador Muon. Datos de preentrenamiento superan los 32T de tokens.

El entrenamiento posterior se divide en dos fases: primero, se entrenan expertos en diferentes campos usando SFT y GRPO de aprendizaje por refuerzo, respectivamente; luego, se realiza una destilación en línea para fusionarlos en un solo modelo. V4-Pro-Max (modo de máxima potencia de inferencia) se autodenomina el modelo de código abierto más potente actualmente, con un rendimiento de codificación que alcanza niveles de élite, y una brecha significativa en inferencia y tareas de agentes en comparación con las fronteras cerradas. V4-Flash-Max, tras un presupuesto de reflexión adecuado, tiene un rendimiento de inferencia cercano a Pro, pero está limitado en tareas puramente de conocimiento y agentes complejos debido a la escala de parámetros. Los pesos se almacenan en precisión mixta FP4+FP8.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingChallengeShare8MUSDT
835.28K Popularidad
#
CryptoMarketSeesVolatility
204.78K Popularidad
#
IsraelStrikesIranBTCPlunges
30.82K Popularidad
#
rsETHAttackUpdate
78.95K Popularidad
#
US-IranTalksStall
28.5K Popularidad

Anclado

¡El modelo de código abierto más potente, deepseek v4, finalmente ha llegado! Modelo de 1.6 billones de parámetros, licencia MIT, memoria de texto largo reducida a una décima de V3.2

Temas de actualidad

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Anclado

¡El modelo de código abierto más potente, deepseek v4, finalmente ha llegado!
Modelo de 1.6 billones de parámetros, licencia MIT, memoria de texto largo reducida a una décima de V3.2