分析:TileKernelsオープンソースコンテンツは、Yifan ZhangのV4アーキテクチャ仕様と一致しています

ドンチャビーティングによる監視によると、DeepSeekがオープンソース化したTileKernelsカーネルライブラリは、以前Yifan Zhangによって公開されたV4アーキテクチャ仕様と複数の点で一致しています。 Zhangは、V4の残差接続はHyper-Connectionsを使用していると述べました。 オープンソースのTileKernelsには、mHC (Manifold-Constrained Hyper-Connections)が含まれており、これは2024年にByte Seedチームによって提案されたHCの改良版であり、元のHCで遭遇した大規模トレーニング中の信号の発散問題に対処しています。 mHC自体はHyper-Connectionsの一種であり、元のHCは安定した大規模トレーニングをサポートできないため、mHCが実際にV4で使用されている可能性が高いです。 Zhangは、V4はFused MoE Mega-Kernelを採用して6つのMoE層にわたる384のエキスパートアクティベーションを管理していると述べました。一方、TileKernelsのMoEモジュールには、Top-kエキスパート選択、トークンからエキスパートへのマッピング、融合されたエキスパートの分配と収集が含まれています。 TileKernelsには、DeepSeekが今年初めに発表した論文で提案された条件付きメモリモジュールであるEngramカーネルも含まれていますが、EngramはZhangのV4仕様には記載されていません。 このライブラリはSM90 (Hopper)とSM100 (Blackwell)をサポートしていますが、Huawei Ascendはサポートしていません。 以前、The InformationはV4がBlackwellでトレーニングされたと報じており、DeepSeekはHuaweiやCambriconチップ向けにモデルを適応させるために数ヶ月を費やしています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン