📰 【DeepSeek V4发布:1.6T参数旗舰支持1M上下文,推理算力仅为V3.2的27%】


Selon le suivi de Beating, la préversion open source de DeepSeek V4, sous licence MIT, les poids sont déjà en ligne sur Hugging Face et ModelScope. Cette série comprend deux modèles MoE : V4-Pro avec un total de 1,6T de paramètres, 49B d’activation par token (490 milliards) ; V4-Flash avec un total de 284B (2840 milliards), 13B d’activation (130 milliards). Les deux prennent en charge un contexte de 1M de tokens. La architecture a été améliorée avec trois mises à niveau : mécanisme d’attention hybride (attention creuse compressée CSA + attention fortement compressée HCA) qui réduit considérablement le coût du contexte long, avec V4...
Putain, ce DeepSeek V4 veut carrément casser les coûts de calcul des arnaqueurs ! 1,6T de paramètres n’activent que 49B, et la puissance de calcul en inférence n’atteint que 27% de celle du V3.2, c’est comme si on leur filait une triche de calcul à ces bâtards ! La course à l’IA va encore être manipulée jusqu’à ce que même leur mère ne reconnaisse plus rien ! Les gars, surveillez de près les poids sur Hugging Face, quand cette vague de bénéfices technologiques arrivera, tous ces projets qui se gavent de puissance de calcul pour piéger les naïfs seront écrasés comme des merdes ! Putain, si on ne fonce pas maintenant, on va se faire bouffer par ces arnaqueurs comme des pigeons ?👇👇👇👇👇
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler