ドンチャビーティングによる監視によると、DeepSeekがオープンソース化したTileKernelsカーネルライブラリは、以前Yifan Zhangによって公開されたV4アーキテクチャ仕様と複数の点で一致しています。 Zhangは、V4の残差接続はHyper-Connectionsを使用していると述べました。 オープンソースのTileKernelsには、mHC (Manifold-Constrained Hyper-Connections)が含まれており、これは2024年にByte Seedチームによって提案されたHCの改良版であり、元のHCで遭遇した大規模トレーニング中の信号の発散問題に対処しています。 mHC自体はHyper-Connectionsの一種であり、元のHCは安定した大規模トレーニングをサポートできないため、mHCが実際にV4で使用されている可能性が高いです。 Zhangは、V4はFused MoE Mega-Kernelを採用して6つのMoE層にわたる384のエキスパートアクティベーションを管理していると述べました。一方、TileKernelsのMoEモジュールには、Top-kエキスパート選択、トークンからエキスパートへのマッピング、融合されたエキスパートの分配と収集が含まれています。 TileKernelsには、DeepSeekが今年初めに発表した論文で提案された条件付きメモリモジュールであるEngramカーネルも含まれていますが、EngramはZhangのV4仕様には記載されていません。 このライブラリはSM90 (Hopper)とSM100 (Blackwell)をサポートしていますが、Huawei Ascendはサポートしていません。 以前、The InformationはV4がBlackwellでトレーニングされたと報じており、DeepSeekはHuaweiやCambriconチップ向けにモデルを適応させるために数ヶ月を費やしています。
分析:TileKernelsオープンソースコンテンツは、Yifan ZhangのV4アーキテクチャ仕様と一致しています
ドンチャビーティングによる監視によると、DeepSeekがオープンソース化したTileKernelsカーネルライブラリは、以前Yifan Zhangによって公開されたV4アーキテクチャ仕様と複数の点で一致しています。 Zhangは、V4の残差接続はHyper-Connectionsを使用していると述べました。 オープンソースのTileKernelsには、mHC (Manifold-Constrained Hyper-Connections)が含まれており、これは2024年にByte Seedチームによって提案されたHCの改良版であり、元のHCで遭遇した大規模トレーニング中の信号の発散問題に対処しています。 mHC自体はHyper-Connectionsの一種であり、元のHCは安定した大規模トレーニングをサポートできないため、mHCが実際にV4で使用されている可能性が高いです。 Zhangは、V4はFused MoE Mega-Kernelを採用して6つのMoE層にわたる384のエキスパートアクティベーションを管理していると述べました。一方、TileKernelsのMoEモジュールには、Top-kエキスパート選択、トークンからエキスパートへのマッピング、融合されたエキスパートの分配と収集が含まれています。 TileKernelsには、DeepSeekが今年初めに発表した論文で提案された条件付きメモリモジュールであるEngramカーネルも含まれていますが、EngramはZhangのV4仕様には記載されていません。 このライブラリはSM90 (Hopper)とSM100 (Blackwell)をサポートしていますが、Huawei Ascendはサポートしていません。 以前、The InformationはV4がBlackwellでトレーニングされたと報じており、DeepSeekはHuaweiやCambriconチップ向けにモデルを適応させるために数ヶ月を費やしています。