DeepSeekオープンソースGPU演算子ライブラリDeepGEMMのメジャーバージョンアップ、Mega MoEを新たに追加し、MoEの五段階演算を単一のカーネルに統合

robot
概要作成中

ME News ニュース、2023年4月16日(UTC+8)、動察Beatingの監視によると、DeepSeekは本日、DeepGEMMのオープンソース以来最大のアップデートを発表しました。この去年2月の「オープンソースウィーク」期間中にリリースされたGPU演算子ライブラリは、元々FP8行列乗算のみをサポートしていましたが、現在は大規模モデル推論の重要な部分をカバーする完全な演算子ライブラリに拡張され、FP8、FP4、BF16の多様な精度の行列演算や、MoEやアテンションスコアなどの専用演算子もサポートしています。
主要な新機能はMega MoEです。MoE(混合専門家)アーキテクチャはDeepSeek V3などのモデルの基盤であり、推論時には五つのステップを順次実行する必要があります:EP分配、第一層線形変換、SwiGLU活性化、第二層線形変換、EP統合。従来の方法は五つの独立したカーネルを順次呼び出し、それぞれの呼び出しは前の処理完了とともに行われ、データはGPUメモリ内を行き来していました。Mega MoEはこれら五つのステップを一つのカーネルに融合し、NVLink通信とTensor Core計算を同時に行うことで、中間の待ち時間やデータ移動を省略しています。
現在のところ、FP8×FP4の精度組み合わせのみをサポートし、PyTorch 2.9以上が必要です。チームは最適化を継続しており、性能比較データは後日公開予定です。
その他の新機能には、FP8×FP4混合精度の行列乗算、より大きなMTPに対応したFP4アテンションスコア演算子(Indexer)、GPUのカーネル起動遅延を減らすプログラム依存性起動(PDL)、高速なJITコンパイル速度、そしてMoE行列演算の多くの最適化が含まれます。今回のアップデートでは、DeepEPv2のMoEデータレイアウトにも対応しています。
PRの説明には特に次のように記載されています:「今回のリリースはDeepGEMMの開発にのみ関連し、内部モデルのリリースとは関係ありません。」
(出典:BlockBeats)

DEEPSEEK-4.88%
MEGA2.17%
KERNEL1.12%
ME1.26%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め