Selon la surveillance de Beating, le doctorant de Princeton Zhang Yifan a révélé des détails clés de DeepSeek V4 sur X : 1,6 T de paramètres au total, V4-Lite 285B ; attention DSA2, fusion DSA/NSA, 512 têtes de vecteur, supporte Sparse MQA et fenêtre glissante ; expert MoE384, activation de 6, utilisant Fused MoE Mega-Kernel, résidus Hyper-Connections. La formation utilise l'optimiseur Muon, contexte de 32K, phase RL GRPO+KL, étendu finalement à 1M, modalité en texte pur. Zhang n'est pas chez DeepSeek, aucune réponse officielle.

BlockBeatNews

2026-04-22 14:06:01

Création du résumé en cours

Selon la surveillance Beating, le doctorant de Princeton Yifan Zhang a mis à jour les détails techniques de DeepSeek V4 sur X. Il a annoncé le 19 avril « V4 la semaine prochaine » et listé trois noms de composants architecturaux, puis a fourni ce soir la table complète des paramètres, tout en révélant pour la première fois l’existence d’une version allégée V4-Lite avec 285 milliards de paramètres.

Le total de V4 est de 1,6 trillion. Le mécanisme d’attention est DSA2, combinant les deux schémas d’attention sparse utilisés précédemment dans DeepSeek, DSA (DeepSeek Sparse Attention) dans V3.2 et NSA (Native Sparse Attention) proposé dans un article publié au début de cette année, avec une dimension de tête de 512, associé à Sparse MQA et SWA (attention à fenêtre glissante). La couche MoE comprend 384 experts, activés 6 à la fois, utilisant le Mega-Kernel MoE Fusionné. La connexion résiduelle reprend Hyper-Connections.

Les détails révélés pour la première fois lors de la phase d’entraînement incluent : l’optimiseur Muon (un optimiseur matriciel appliquant la normalisation orthogonale de Newton-Schulz pour la mise à jour du momentum), une longueur de contexte de pré-entraînement de 32K, et lors de la phase d’apprentissage par renforcement, l’utilisation de GRPO avec correction par divergence KL. La longueur de contexte finale a été étendue à 1 million. La modalité est purement textuelle.

Zhang n’occupe pas de poste chez DeepSeek, et l’équipe officielle de DeepSeek n’a pas répondu aux informations ci-dessus.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
Gate13thAnniversaryLive
1.23M Popularité
#
WCTCTradingChallengeShare8MUSDT
799.4K Popularité
#
BitcoinBouncesBack
215.71K Popularité
#
IsraelStrikesIranBTCPlunges
30.66K Popularité
#
EthereumMemeSeasonReturns
2M Popularité

Épingler

Yifan Zhang révèle les spécifications techniques complètes de DeepSeek V4 : 1,6T paramètres, activation de 384 experts pour 6

Sujets populaires

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Épingler