分析:TileKernelsオープンソースの内容は、以前Yifan Zhangが公開したV4アーキテクチャ仕様と多くの点で一致している

robot
概要作成中

動察 Beating 監測によると、DeepSeek のオープンソースの TileKernels カーネルライブラリは、以前 Yifan Zhang が公開した V4 アーキテクチャ仕様と複数の対応関係がある。

Zhang は、V4 の残差接続に Hyper-Connections を使用していると述べている。TileKernels のオープンソースは mHC(Manifold-Constrained Hyper-Connections)カーネルであり、これは DeepSeek が字節 Seed チームにより2024年に提案した HC に双方向ランダム行列制約を加えた改良版であり、元の HC の大規模訓練時の信号発散問題を解決している。mHC は Hyper-Connections の一種であり、元の HC は大規模で安定した訓練を支えられなかったため、V4 で実際に使用されているのはおそらく mHC である。Zhang は、V4 では Fused MoE Mega-Kernel を用いて 384 の専門家を活性化させる 6 層の MoE 層を管理していると述べている。TileKernels の MoE モジュールは、Top-k 専門家選択、トークンから専門家へのマッピング、融合された専門家の分配と収集を含む。

TileKernels にはまた、DeepSeek が今年1月に発表した条件記憶モジュールである Engram カーネルも含まれているが、Zhang の V4 仕様には Engram についての記述はない。ライブラリは SM90(Hopper)と SM100(Blackwell)をサポートしており、Huawei の Ascend には対応していない。『The Information』は以前、V4 が Blackwell 上で訓練されていると報じており、DeepSeek は数ヶ月をかけてモデルを Huawei や寒武紀のチップに適応させた。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン