動察 Beating 監測によると、DeepSeek のオープンソースの TileKernels カーネルライブラリは、以前 Yifan Zhang が公開した V4 アーキテクチャ仕様と複数の対応関係がある。 Zhang は、V4 の残差接続に Hyper-Connections を使用していると述べている。TileKernels のオープンソースは mHC(Manifold-Constrained Hyper-Connections)カーネルであり、これは DeepSeek が字節 Seed チームにより2024年に提案した HC に双方向ランダム行列制約を加えた改良版であり、元の HC の大規模訓練時の信号発散問題を解決している。mHC は Hyper-Connections の一種であり、元の HC は大規模で安定した訓練を支えられなかったため、V4 で実際に使用されているのはおそらく mHC である。Zhang は、V4 では Fused MoE Mega-Kernel を用いて 384 の専門家を活性化させる 6 層の MoE 層を管理していると述べている。TileKernels の MoE モジュールは、Top-k 専門家選択、トークンから専門家へのマッピング、融合された専門家の分配と収集を含む。 TileKernels にはまた、DeepSeek が今年1月に発表した条件記憶モジュールである Engram カーネルも含まれているが、Zhang の V4 仕様には Engram についての記述はない。ライブラリは SM90(Hopper)と SM100(Blackwell)をサポートしており、Huawei の Ascend には対応していない。『The Information』は以前、V4 が Blackwell 上で訓練されていると報じており、DeepSeek は数ヶ月をかけてモデルを Huawei や寒武紀のチップに適応させた。
分析:TileKernelsオープンソースの内容は、以前Yifan Zhangが公開したV4アーキテクチャ仕様と多くの点で一致している
動察 Beating 監測によると、DeepSeek のオープンソースの TileKernels カーネルライブラリは、以前 Yifan Zhang が公開した V4 アーキテクチャ仕様と複数の対応関係がある。
Zhang は、V4 の残差接続に Hyper-Connections を使用していると述べている。TileKernels のオープンソースは mHC(Manifold-Constrained Hyper-Connections)カーネルであり、これは DeepSeek が字節 Seed チームにより2024年に提案した HC に双方向ランダム行列制約を加えた改良版であり、元の HC の大規模訓練時の信号発散問題を解決している。mHC は Hyper-Connections の一種であり、元の HC は大規模で安定した訓練を支えられなかったため、V4 で実際に使用されているのはおそらく mHC である。Zhang は、V4 では Fused MoE Mega-Kernel を用いて 384 の専門家を活性化させる 6 層の MoE 層を管理していると述べている。TileKernels の MoE モジュールは、Top-k 専門家選択、トークンから専門家へのマッピング、融合された専門家の分配と収集を含む。
TileKernels にはまた、DeepSeek が今年1月に発表した条件記憶モジュールである Engram カーネルも含まれているが、Zhang の V4 仕様には Engram についての記述はない。ライブラリは SM90(Hopper)と SM100(Blackwell)をサポートしており、Huawei の Ascend には対応していない。『The Information』は以前、V4 が Blackwell 上で訓練されていると報じており、DeepSeek は数ヶ月をかけてモデルを Huawei や寒武紀のチップに適応させた。