Huawei Chip Repousse le lancement de DeepSeek V4 ? Le même noyau atteint presque le double de vitesse sur NVIDIA Ascend

Selon la surveillance de Dongcha Beating, avant la sortie de DeepSeek V4, il y avait une spéculation généralisée dans la communauté selon laquelle le lancement avait été retardé en raison de difficultés à adapter le modèle de NVIDIA à la plateforme Huawei Ascend. Bien que le rapport technique V4 n’ait pas directement abordé cette rumeur, les données de performance divulguées la contredisent fortement. Le rapport montre que le schéma de partitionnement d’experts fins (Fine-Grained EP Scheme) a été déployé et validé avec succès à la fois sur les GPU NVIDIA et sur les NPU Huawei Ascend, permettant une accélération de 1,50 à 1,73 fois pour les charges d’inférence régulières, et jusqu’à 1,96 fois pour des scénarios sensibles à la latence tels que le déploiement RL et les services d’agents à haute vitesse. L’équipe a également open-sourcé le noyau CUDA MegaMoE dans le cadre de DeepGEMM. En d’autres termes, V4 a démontré une efficacité proche des limites théoriques sur les deux plateformes matérielles, et l’adaptation multiplateforme n’a pas entraîné de perte de performance.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler