Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Yifan Zhang révèle les spécifications techniques complètes de DeepSeek V4 : 1,6T paramètres, activation de 384 experts pour 6
Selon la surveillance Beating, le doctorant de Princeton Yifan Zhang a mis à jour les détails techniques de DeepSeek V4 sur X. Il a annoncé le 19 avril « V4 la semaine prochaine » et listé trois noms de composants architecturaux, puis a fourni ce soir la table complète des paramètres, tout en révélant pour la première fois l’existence d’une version allégée V4-Lite avec 285 milliards de paramètres.
Le total de V4 est de 1,6 trillion. Le mécanisme d’attention est DSA2, combinant les deux schémas d’attention sparse utilisés précédemment dans DeepSeek, DSA (DeepSeek Sparse Attention) dans V3.2 et NSA (Native Sparse Attention) proposé dans un article publié au début de cette année, avec une dimension de tête de 512, associé à Sparse MQA et SWA (attention à fenêtre glissante). La couche MoE comprend 384 experts, activés 6 à la fois, utilisant le Mega-Kernel MoE Fusionné. La connexion résiduelle reprend Hyper-Connections.
Les détails révélés pour la première fois lors de la phase d’entraînement incluent : l’optimiseur Muon (un optimiseur matriciel appliquant la normalisation orthogonale de Newton-Schulz pour la mise à jour du momentum), une longueur de contexte de pré-entraînement de 32K, et lors de la phase d’apprentissage par renforcement, l’utilisation de GRPO avec correction par divergence KL. La longueur de contexte finale a été étendue à 1 million. La modalité est purement textuelle.
Zhang n’occupe pas de poste chez DeepSeek, et l’équipe officielle de DeepSeek n’a pas répondu aux informations ci-dessus.