DeepSeek V4 publié : le modèle phare avec 1,6 T de paramètres supporte un contexte de 1M, la puissance de calcul d'inférence n'est que 27% de celle de V3.2

ME News, le 24 avril (UTC+8), selon le suivi de Beating (动察), DeepSeek a open-sourcé la série préliminaire V4, sous licence MIT, les poids ont été mis en ligne sur Hugging Face et ModelScope.
La série comprend deux modèles MoE : V4-Pro avec un total de 1,6T paramètres, activant 49B par token (49 milliards) ; V4-Flash avec un total de 284B paramètres (284 milliards), activant 13B (13 milliards). Les deux prennent en charge un contexte de 1M token.
Trois améliorations architecturales : mécanisme d'attention hybride (attention sparse compressée CSA + attention fortement compressée HCA) réduit considérablement les coûts des longs contextes. Avec un contexte de 1M, les FLOPs d'inférence par token de V4-Pro ne représentent que 27% de ceux de V3.2, et le cache KV (occupation mémoire pour stocker les informations historiques lors de l'inférence) n'est que 10% de celui de V3.2 ; les hyperconnexions à contrainte de variété mHC remplacent les connexions résiduelles traditionnelles, renforçant la stabilité de la propagation du signal entre les couches ; l'entraînement adopte l'optimiseur Muon pour accélérer la convergence. Les données de pré-entraînement dépassent 32T tokens.
Le post-entraînement se déroule en deux phases : d'abord, entraînement séparé des experts de chaque domaine avec SFT et apprentissage par renforcement GRPO, puis fusion en un seul modèle via distillation en ligne. V4-Pro-Max (mode de raisonnement le plus élevé) se présente comme le modèle open-source le plus puissant actuellement, atteignant un niveau de référence de codage de premier ordre, et l'écart avec les modèles propriétaires de pointe en matière de raisonnement et de tâches agent s'est considérablement réduit. V4-Flash-Max, après avoir alloué un budget de réflexion suffisant, a des performances de raisonnement proches de Pro, mais reste limité par la taille des paramètres pour les connaissances pures et les tâches agent complexes. Les poids sont stockés en précision mixte FP4+FP8.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé