El modelo de código abierto más potente, deepseek v4, ¡finalmente llegó! Modelo de 1,6 billones de parámetros, licencia MIT, memoria de texto largo comprimida a una décima parte de V3.2.

ME News消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek 开源 V4 系列预览版,MIT 许可,权重已上线 Hugging Face 和 ModelScope。系列含两款 MoE 模型:V4-Pro 总参数 1.6T、每 token 激活 49B(490 亿);V4-Flash 总参数 284B(2840 亿)、激活 13B(130 亿)。两款均支持 1M token 上下文。 架构三项升级:混合注意力机制(压缩稀疏注意力 CSA + 重度压缩注意力 HCA)大幅降低长上下文开销,1M 上下文下 V4-Pro 单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存(推理时存储历史信息的显存占用)仅为 V3.2 的 10%;流形约束超连接 mHC 替代传统残差连接,增强跨层信号传播稳定性;训练改用 Muon 优化器加速收敛。预训练数据超 32T token。 后训练分两阶段:先用 SFT 和 GRPO 强化学习分别训练各领域专家,再用在线蒸馏统一合并成一个模型。V4-Pro-Max(最高推理力度模式)自称当前最强开源模型,编码基准达到顶级,推理和 agent 任务与闭源前沿差距显著缩小。V4-Flash-Max 在给足思考预算后推理表现接近 Pro,但纯知识和复杂 agent 任务上受限于参数规模。权重以 FP4+FP8 混合精度存储。 (来源:BlockBeats)

Traducción al español:

Mensaje de ME News, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, DeepSeek ha lanzado en código abierto la vista previa de la serie V4, con licencia MIT, y los pesos ya están disponibles en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con 1.6T de parámetros totales y 49B (49 mil millones) activados por token; V4-Flash con 284B (284 mil millones) de parámetros totales y 13B (13 mil millones) activados. Ambos admiten un contexto de 1M tokens. Tres mejoras arquitectónicas: el mecanismo de atención híbrida (Atención Compresiva Dispersa CSA + Atención Compresiva Pesada HCA) reduce significativamente la sobrecarga de contexto largo, con los FLOPs de inferencia de un solo token de V4-Pro en contexto de 1M siendo solo el 27% de los de V3.2, y la caché KV (uso de memoria de video para almacenar información histórica durante la inferencia) siendo solo el 10% de la de V3.2; la hiperconexión con restricción de variedad mHC reemplaza la conexión residual tradicional, mejorando la estabilidad de la propagación de señales entre capas; el entrenamiento utiliza el optimizador Muon para acelerar la convergencia. Los datos de preentrenamiento superan los 32T tokens. El post-entrenamiento se divide en dos fases: primero se entrenan expertos en cada dominio por separado usando SFT y aprendizaje por refuerzo GRPO, luego se fusionan en un solo modelo mediante destilación en línea. V4-Pro-Max (modo de máxima intensidad de razonamiento) se autodenomina el modelo de código abierto más potente actualmente, con puntuaciones de referencia de codificación de primer nivel, y la brecha en tareas de razonamiento y agente con los modelos cerrados de vanguardia se ha reducido significativamente. V4-Flash-Max, después de dar suficiente presupuesto de reflexión, tiene un rendimiento de razonamiento cercano al de Pro, pero está limitado por el tamaño de los parámetros en conocimiento puro y tareas de agente complejas. Los pesos se almacenan en precisión mixta FP4+FP8. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado