DeepSeek dévoile la version préliminaire de la série V4, sous licence MIT, avec des poids disponibles sur HuggingFace et ModelScope. V4-Pro1.6T, V4-Flash284B, supportent tous deux un contexte d'environ 1 million, avec des activations respectives de 49 milliards et 13 milliards. Mise à niveau vers une attention hybride CSA+HCA, superconnexion mHC, optimisation Muon, données d'entraînement dépassant 32 téraoctets. Deux phases de post-formation : SFT/GRPO pour former des experts du domaine, puis distillation en ligne pour fusionner. Pro-Max est la version open source la plus puissante, avec une inférence proche de l'état de l'art ; Flash-Max, avec un budget de réflexion suffisant, est également proche de Pro, mais limité en taille. Les poids utilisent une précision hybride FP4+FP8.

BlockBeatNews

2026-04-24 03:22:40

Création du résumé en cours

Selon le monitoring Beating, aperçu de la série open source DeepSeek V4, licence MIT, poids déjà disponibles sur Hugging Face et ModelScope. La série comprend deux modèles MoE : V4-Pro avec un total de 1,6T de paramètres, 49B (490 milliards) activations par token ; V4-Flash avec un total de 284B (2840 milliards), 13B (130 milliards) d’activations. Les deux prennent en charge un contexte d’environ 1 million de tokens.

Trois améliorations architecturales : mécanisme d’attention hybride (attention sparse compressée CSA + attention fortement compressée HCA) réduisant considérablement le coût du contexte long, avec un FLOPs d’inférence par token de seulement 27 % de celui de V3.2 pour V4-Pro dans un contexte de 1 million de tokens ; la mémoire cache KV (stockage de l’historique lors de l’inférence) n’utilise que 10 % de celle de V3.2 ; la contrainte de manifold sur la superconnexion mHC remplace la connexion résiduelle traditionnelle, renforçant la stabilité de la propagation du signal entre couches ; l’entraînement utilise l’optimiseur Muon pour accélérer la convergence. Les données de pré-entraînement dépassent 32T de tokens.

L’entraînement postérieur se déroule en deux phases : d’abord, l’apprentissage renforcé par SFT et GRPO pour former des experts dans différents domaines, puis une fusion en ligne pour combiner tous les modèles en un seul. V4-Pro-Max (mode de puissance d’inférence maximale) se revendique comme le modèle open source le plus puissant actuellement, avec des benchmarks de codage de premier ordre, et une réduction significative de l’écart en inférence et tâches agent par rapport aux modèles propriétaires de pointe. V4-Flash-Max, après un budget de réflexion suffisant, affiche des performances d’inférence proches de Pro, mais limitée en connaissances pures et tâches complexes d’agents en raison de la taille des paramètres. Les poids sont stockés en précision mixte FP4+FP8.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingChallengeShare8MUSDT
835.58K Popularité
#
CryptoMarketSeesVolatility
204.98K Popularité
#
IsraelStrikesIranBTCPlunges
30.82K Popularité
#
rsETHAttackUpdate
79.03K Popularité
#
US-IranTalksStall
28.54K Popularité

Épingler

Le modèle open source le plus puissant, deepseek v4, est enfin arrivé ! Modèle de 1,6 trillion de paramètres, licence MIT, la mémoire vidéo pour les textes longs réduite à un dixième de V3.2

Sujets populaires

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Épingler

Le modèle open source le plus puissant, deepseek v4, est enfin arrivé !
Modèle de 1,6 trillion de paramètres, licence MIT, la mémoire vidéo pour les textes longs réduite à un dixième de V3.2