Le modèle open source le plus puissant, deepseek v4, est enfin arrivé !
Modèle de 1,6 trillion de paramètres, licence MIT, la mémoire vidéo pour les textes longs réduite à un dixième de V3.2

robot
Création du résumé en cours

Selon le monitoring Beating, aperçu de la série open source DeepSeek V4, licence MIT, poids déjà disponibles sur Hugging Face et ModelScope. La série comprend deux modèles MoE : V4-Pro avec un total de 1,6T de paramètres, 49B (490 milliards) activations par token ; V4-Flash avec un total de 284B (2840 milliards), 13B (130 milliards) d’activations. Les deux prennent en charge un contexte d’environ 1 million de tokens.

Trois améliorations architecturales : mécanisme d’attention hybride (attention sparse compressée CSA + attention fortement compressée HCA) réduisant considérablement le coût du contexte long, avec un FLOPs d’inférence par token de seulement 27 % de celui de V3.2 pour V4-Pro dans un contexte de 1 million de tokens ; la mémoire cache KV (stockage de l’historique lors de l’inférence) n’utilise que 10 % de celle de V3.2 ; la contrainte de manifold sur la superconnexion mHC remplace la connexion résiduelle traditionnelle, renforçant la stabilité de la propagation du signal entre couches ; l’entraînement utilise l’optimiseur Muon pour accélérer la convergence. Les données de pré-entraînement dépassent 32T de tokens.

L’entraînement postérieur se déroule en deux phases : d’abord, l’apprentissage renforcé par SFT et GRPO pour former des experts dans différents domaines, puis une fusion en ligne pour combiner tous les modèles en un seul. V4-Pro-Max (mode de puissance d’inférence maximale) se revendique comme le modèle open source le plus puissant actuellement, avec des benchmarks de codage de premier ordre, et une réduction significative de l’écart en inférence et tâches agent par rapport aux modèles propriétaires de pointe. V4-Flash-Max, après un budget de réflexion suffisant, affiche des performances d’inférence proches de Pro, mais limitée en connaissances pures et tâches complexes d’agents en raison de la taille des paramètres. Les poids sont stockés en précision mixte FP4+FP8.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler