ファーウェイのチップがDeepSeek V4の発売を遅らせる?同じカーネルがNVIDIA Ascendでほぼ2倍の速度を達成

ドンチャビーティングによる監視によると、DeepSeek V4のリリース前に、コミュニティ内で広く噂されていたのは、NVIDIAから華為のAscendプラットフォームへのモデル適応の難しさが原因で、リリースが遅れているというものでした。
V4の技術報告書はこの噂に直接触れていませんが、公開された性能データはそれと大きく矛盾しています。
報告書によると、細粒度エキスパートパーティションスキーム(Fine-Grained EP Scheme)は、NVIDIAのGPUと華為のAscend NPUの両方で正常に展開・検証されており、通常の推論負荷で1.50倍から1.73倍の加速を達成し、RLロールアウトや高速エージェントサービスなどのレイテンシー重視のシナリオでは最大1.96倍の加速を実現しています。
チームはまた、DeepGEMMの一部としてCUDAバージョンのカーネルMegaMoEをオープンソース化しました。
言い換えれば、V4は両方のハードウェアプラットフォームで理論的限界に近い効率を示しており、クロスプラットフォームの適応は性能低下をもたらしていません。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン