ドンチャビーティングによる監視によると、DeepSeek V4のリリース前に、コミュニティ内で広く噂されていたのは、NVIDIAから華為のAscendプラットフォームへのモデル適応の難しさが原因で、リリースが遅れているというものでした。 V4の技術報告書はこの噂に直接触れていませんが、公開された性能データはそれと大きく矛盾しています。 報告書によると、細粒度エキスパートパーティションスキーム(Fine-Grained EP Scheme)は、NVIDIAのGPUと華為のAscend NPUの両方で正常に展開・検証されており、通常の推論負荷で1.50倍から1.73倍の加速を達成し、RLロールアウトや高速エージェントサービスなどのレイテンシー重視のシナリオでは最大1.96倍の加速を実現しています。 チームはまた、DeepGEMMの一部としてCUDAバージョンのカーネルMegaMoEをオープンソース化しました。 言い換えれば、V4は両方のハードウェアプラットフォームで理論的限界に近い効率を示しており、クロスプラットフォームの適応は性能低下をもたらしていません。
293.88K 人気度
11.69M 人気度
34.62K 人気度
97.89K 人気度
20.78K 人気度
ファーウェイのチップがDeepSeek V4の発売を遅らせる?同じカーネルがNVIDIA Ascendでほぼ2倍の速度を達成
ドンチャビーティングによる監視によると、DeepSeek V4のリリース前に、コミュニティ内で広く噂されていたのは、NVIDIAから華為のAscendプラットフォームへのモデル適応の難しさが原因で、リリースが遅れているというものでした。
V4の技術報告書はこの噂に直接触れていませんが、公開された性能データはそれと大きく矛盾しています。
報告書によると、細粒度エキスパートパーティションスキーム(Fine-Grained EP Scheme)は、NVIDIAのGPUと華為のAscend NPUの両方で正常に展開・検証されており、通常の推論負荷で1.50倍から1.73倍の加速を達成し、RLロールアウトや高速エージェントサービスなどのレイテンシー重視のシナリオでは最大1.96倍の加速を実現しています。
チームはまた、DeepGEMMの一部としてCUDAバージョンのカーネルMegaMoEをオープンソース化しました。
言い換えれば、V4は両方のハードウェアプラットフォームで理論的限界に近い効率を示しており、クロスプラットフォームの適応は性能低下をもたらしていません。