📰 【Le modèle open source le plus puissant DeepSeek V4 est enfin là ! Un modèle de 1,6 trillion de paramètres, sous licence MIT, la mémoire pour textes longs compressée à un dixième de V3.2】


Selon le suivi de Beating, la version préliminaire de la série open source DeepSeek V4, sous licence MIT, les poids sont déjà en ligne sur Hugging Face et ModelScope. Cette série comprend deux modèles MoE : V4-Pro avec un total de 1,6 trillion de paramètres, 49 milliards d’activations par token (490亿) ; V4-Flash avec un total de 284 milliards (2840亿), 13 milliards d’activations (130亿). Les deux supportent un contexte de 1 million de tokens. La structure a été améliorée avec trois mises à jour : mécanisme d’attention hybride (attention creuse compressée CSA + attention fortement compressée HCA) réduisant considérablement le coût pour de longs contextes, avec V4...

Frères, DeepSeek fait encore des gros coups, le modèle open source V4 avec 1,6 trillion de paramètres, sous licence MIT, utilisable librement, la mémoire pour textes longs compressée à un dixième de V3.2. Ce gars-là ose vraiment tout, il balance de gros modèles comme des légumes, les petits investisseurs qui jouent à l’IA, montez vite à bord, ne ratez pas cette vague de bénéfices technologiques comme vous avez raté le roi des cryptos à l’époque.👇👇👇👇👇
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler