« Les puces Huawei retardent le lancement de DeepSeek V4 » ? Le même noyau fonctionne aussi bien sur Nvidia que sur Ascend et accélère près de 2 fois.

robot
Création du résumé en cours
ME News消息,24 avril (UTC+8), selon la surveillance de Dongcha Beating, avant la sortie de DeepSeek V4, une hypothèse circulait largement dans la communauté : le lancement de V4 était en retard par rapport aux prévisions parce que le modèle rencontrait des difficultés d'adaptation lors de la migration de NVIDIA vers la plateforme Huawei Ascend.
Le rapport technique de V4 n'a pas répondu directement à cette rumeur, mais les données de performance divulguées sont clairement en contradiction avec elle.
Le rapport montre que le schéma de partitionnement fin des experts (Fine-Grained EP Scheme) de V4 a été déployé et validé sur les deux plateformes NVIDIA GPU et Huawei Ascend NPU, accélérant les charges de travail d'inférence standard de 1,50 à 1,73 fois, et jusqu'à 1,96 fois dans les scénarios sensibles à la latence tels que le déploiement RL et les services Agent à haute vitesse.
L'équipe a open sourcé le noyau CUDA MegaMoE dans le cadre de DeepGEMM.
En d'autres termes, V4 a atteint une efficacité proche de la limite théorique sur les deux matériels, et l'adaptation multiplateforme n'a pas entraîné de perte de performance.
(来源:BlockBeats)
DEEPSEEK-2,58%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé