ME News消息，4 月 24 日（UTC+8），据动察 Beating 监测，DeepSeek 开源 V4 系列预览版，MIT 许可，权重已上线 Hugging Face 和 ModelScope。系列含两款 MoE 模型：V4-Pro 总参数 1.6T、每 token 激活 49B（490 亿）；V4-Flash 总参数 284B（2840 亿）、激活 13B（130 亿）。两款均支持 1M token 上下文。架构三项升级：混合注意力机制（压缩稀疏注意力 CSA + 重度压缩注意力 HCA）大幅降低长上下文开销，1M 上下文下 V4-Pro 单 token 推理 FLOPs 仅为 V3.2 的 27%，KV 缓存（推理时存储历史信息的显存占用）仅为 V3.2 的 10%；流形约束超连接 mHC 替代传统残差连接，增强跨层信号传播稳定性；训练改用 Muon 优化器加速收敛。预训练数据超 32T token。后训练分两阶段：先用 SFT 和 GRPO 强化学习分别训练各领域专家，再用在线蒸馏统一合并成一个模型。V4-Pro-Max（最高推理力度模式）自称当前最强开源模型，编码基准达到顶级，推理和 agent 任务与闭源前沿差距显著缩小。V4-Flash-Max 在给足思考预算后推理表现接近 Pro，但纯知识和复杂 agent 任务上受限于参数规模。权重以 FP4+FP8 混合精度存储。（来源：BlockBeats）

Traducción al español:

Mensaje de ME News, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, DeepSeek ha lanzado en código abierto la vista previa de la serie V4, con licencia MIT, y los pesos ya están disponibles en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con 1.6T de parámetros totales y 49B (49 mil millones) activados por token; V4-Flash con 284B (284 mil millones) de parámetros totales y 13B (13 mil millones) activados. Ambos admiten un contexto de 1M tokens. Tres mejoras arquitectónicas: el mecanismo de atención híbrida (Atención Compresiva Dispersa CSA + Atención Compresiva Pesada HCA) reduce significativamente la sobrecarga de contexto largo, con los FLOPs de inferencia de un solo token de V4-Pro en contexto de 1M siendo solo el 27% de los de V3.2, y la caché KV (uso de memoria de video para almacenar información histórica durante la inferencia) siendo solo el 10% de la de V3.2; la hiperconexión con restricción de variedad mHC reemplaza la conexión residual tradicional, mejorando la estabilidad de la propagación de señales entre capas; el entrenamiento utiliza el optimizador Muon para acelerar la convergencia. Los datos de preentrenamiento superan los 32T tokens. El post-entrenamiento se divide en dos fases: primero se entrenan expertos en cada dominio por separado usando SFT y aprendizaje por refuerzo GRPO, luego se fusionan en un solo modelo mediante destilación en línea. V4-Pro-Max (modo de máxima intensidad de razonamiento) se autodenomina el modelo de código abierto más potente actualmente, con puntuaciones de referencia de codificación de primer nivel, y la brecha en tareas de razonamiento y agente con los modelos cerrados de vanguardia se ha reducido significativamente. V4-Flash-Max, después de dar suficiente presupuesto de reflexión, tiene un rendimiento de razonamiento cercano al de Pro, pero está limitado por el tamaño de los parámetros en conocimiento puro y tareas de agente complejas. Los pesos se almacenan en precisión mixta FP4+FP8. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateCompletesDividendDistribution
539,89K Popularidad
#
CirclePlunges17%
4,16M Popularidad
#
IsraelStrikesIranBTCPlunges
67,53K Popularidad
#
PredictWorldCupShare20000U
167,65K Popularidad
#
GateCardPointsSystemLaunched
121,09K Popularidad

Fijado

El modelo de código abierto más potente, deepseek v4, ¡finalmente llegó! Modelo de 1,6 billones de parámetros, licencia MIT, memoria de texto largo comprimida a una décima parte de V3.2.

Temas de actualidad

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Fijado