動態監測 Beating によると、寒武紀は V4 発表当日に 285B DeepSeek-V4-Flash と 1.6T DeepSeek-V4-Pro の2つのモデルの適応を完了し、vLLM 推論フレームワークに基づき、適応コードは GitHub にオープンソース化された。 適応速度は二つの前提に依存している:一つは寒武紀が自社開発した NeuWARE ソフトウェアスタックがネイティブで PyTorch、vLLM などの主流フレームワークをサポートし、モデルの迅速な移行が可能であること。もう一つは、寒武紀のチップが主流の低精度データフォーマットをネイティブにサポートし、追加のフォーマット変換なしで精度検証を完了できること。V4 の新しい構造に対して、寒武紀は自社開発の融合演算子ライブラリ Torch-MLU-Ops を通じて、Compressor、mHC などのモジュールに対して特別な高速化を行い、BangC を用いて疎/圧縮 Attention、GroupGemm などのホット演算子コアを作成した。 推論フレームワークの層において、寒武紀は vLLM で TP/PP/SP/DP/EP の五次元ハイブリッド並列、通信計算並列、低精度量子化、PD 分離展開をサポートしている。V4 の技術レポートでは、NVIDIA GPU と Huawei 昇腾 NPU 上での検証のみが言及されており、寒武紀プラットフォームについては触れられていない。今回の適応は寒武紀が自主的に完了したものである。V4 発表のニュースに刺激されて、A株の国産チップ関連セクターは上昇し、寒武紀の株価は取引中に直線的に上昇した。
寒武纪はDeepSeek-V4の適応を完了し、コードをオープンソース化、国産チップ株の上昇を牽引
動態監測 Beating によると、寒武紀は V4 発表当日に 285B DeepSeek-V4-Flash と 1.6T DeepSeek-V4-Pro の2つのモデルの適応を完了し、vLLM 推論フレームワークに基づき、適応コードは GitHub にオープンソース化された。
適応速度は二つの前提に依存している:一つは寒武紀が自社開発した NeuWARE ソフトウェアスタックがネイティブで PyTorch、vLLM などの主流フレームワークをサポートし、モデルの迅速な移行が可能であること。もう一つは、寒武紀のチップが主流の低精度データフォーマットをネイティブにサポートし、追加のフォーマット変換なしで精度検証を完了できること。V4 の新しい構造に対して、寒武紀は自社開発の融合演算子ライブラリ Torch-MLU-Ops を通じて、Compressor、mHC などのモジュールに対して特別な高速化を行い、BangC を用いて疎/圧縮 Attention、GroupGemm などのホット演算子コアを作成した。
推論フレームワークの層において、寒武紀は vLLM で TP/PP/SP/DP/EP の五次元ハイブリッド並列、通信計算並列、低精度量子化、PD 分離展開をサポートしている。V4 の技術レポートでは、NVIDIA GPU と Huawei 昇腾 NPU 上での検証のみが言及されており、寒武紀プラットフォームについては触れられていない。今回の適応は寒武紀が自主的に完了したものである。V4 発表のニュースに刺激されて、A株の国産チップ関連セクターは上昇し、寒武紀の株価は取引中に直線的に上昇した。