Lanzamiento de DeepSeek V4: el buque insignia de 1.6T parámetros soporta un contexto de 1M, y la capacidad de inferencia es solo el 27% de la V3.2

ME News informa, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, DeepSeek ha lanzado en código abierto la serie V4 en versión preliminar, con licencia MIT, los pesos ya están disponibles en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con 1.6T parámetros totales, 49B (49 mil millones) activados por token; V4-Flash con 284B (284 mil millones) parámetros totales, 13B (13 mil millones) activados. Ambos soportan un contexto de 1M tokens. Tres actualizaciones de arquitectura: Mecanismo de atención híbrida (Atención Escasa Comprimida CSA + Atención Altamente Comprimida HCA) reduce drásticamente el costo de contextos largos, bajo contexto de 1M, los FLOPs de inferencia por token de V4-Pro son solo el 27% de V3.2, la caché KV (uso de memoria de video para almacenar información histórica durante la inferencia) es solo el 10% de V3.2; la superconexión con restricción de variedad mHC reemplaza la conexión residual tradicional, mejorando la estabilidad de la propagación de señales entre capas; el entrenamiento cambia al optimizador Muon para acelerar la convergencia. Datos de preentrenamiento: más de 32T tokens. El post-entrenamiento se divide en dos fases: primero se entrena a expertos en cada dominio usando SFT y aprendizaje por refuerzo GRPO, luego se fusionan en un solo modelo mediante destilación en línea. V4-Pro-Max (modo de máxima potencia de inferencia) se autodenomina el modelo de código abierto más fuerte actualmente, alcanza el nivel superior en benchmarks de codificación, y la brecha en tareas de razonamiento y agente con los modelos cerrados de vanguardia se ha reducido significativamente. V4-Flash-Max, con suficiente presupuesto de pensamiento, se acerca a Pro en rendimiento de razonamiento, pero en tareas de conocimiento puro y agente complejo está limitado por el tamaño de parámetros. Los pesos se almacenan en precisión mixta FP4+FP8. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado