¡El modelo de código abierto más potente, deepseek v4, finalmente ha llegado!
Modelo de 1.6 billones de parámetros, licencia MIT, memoria de texto largo reducida a una décima de V3.2

robot
Generación de resúmenes en curso

Según la monitorización de Beating, versión preliminar de la serie V4 de DeepSeek de código abierto, licencia MIT, pesos ya disponibles en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con un total de 1.6T de parámetros y 49B (490 millones) de activaciones por token; V4-Flash con un total de 284B (2840 millones) de parámetros y 13B (130 millones) de activaciones. Ambos soportan un contexto de aproximadamente 1M de tokens.

Tres mejoras en la arquitectura: mecanismo de atención híbrido (atención dispersa comprimida CSA + atención comprimida intensiva HCA) que reduce significativamente el coste de contexto largo, en un contexto de 1M de tokens, la inferencia de FLOPs por token en V4-Pro es solo el 27% de V3.2, y la caché KV (memoria de GPU que almacena información histórica durante la inferencia) es solo el 10% de V3.2; la restricción de la forma de la manifold y la conexión superconectada mHC reemplazan las conexiones residuales tradicionales, mejorando la estabilidad en la propagación de señales entre capas; el entrenamiento se aceleró usando el optimizador Muon. Datos de preentrenamiento superan los 32T de tokens.

El entrenamiento posterior se divide en dos fases: primero, se entrenan expertos en diferentes campos usando SFT y GRPO de aprendizaje por refuerzo, respectivamente; luego, se realiza una destilación en línea para fusionarlos en un solo modelo. V4-Pro-Max (modo de máxima potencia de inferencia) se autodenomina el modelo de código abierto más potente actualmente, con un rendimiento de codificación que alcanza niveles de élite, y una brecha significativa en inferencia y tareas de agentes en comparación con las fronteras cerradas. V4-Flash-Max, tras un presupuesto de reflexión adecuado, tiene un rendimiento de inferencia cercano a Pro, pero está limitado en tareas puramente de conocimiento y agentes complejos debido a la escala de parámetros. Los pesos se almacenan en precisión mixta FP4+FP8.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado