ME News ニュース、2023年4月16日(UTC+8)、動察Beatingの監視によると、DeepSeekは本日、DeepGEMMのオープンソース以来最大のアップデートを発表しました。この去年2月の「オープンソースウィーク」期間中にリリースされたGPU演算子ライブラリは、元々FP8行列乗算のみをサポートしていましたが、現在は大規模モデル推論の重要な部分をカバーする完全な演算子ライブラリに拡張され、FP8、FP4、BF16の多様な精度の行列演算や、MoEやアテンションスコアなどの専用演算子もサポートしています。 主要な新機能はMega MoEです。MoE(混合専門家)アーキテクチャはDeepSeek V3などのモデルの基盤であり、推論時には五つのステップを順次実行する必要があります:EP分配、第一層線形変換、SwiGLU活性化、第二層線形変換、EP統合。従来の方法は五つの独立したカーネルを順次呼び出し、それぞれの呼び出しは前の処理完了とともに行われ、データはGPUメモリ内を行き来していました。Mega MoEはこれら五つのステップを一つのカーネルに融合し、NVLink通信とTensor Core計算を同時に行うことで、中間の待ち時間やデータ移動を省略しています。 現在のところ、FP8×FP4の精度組み合わせのみをサポートし、PyTorch 2.9以上が必要です。チームは最適化を継続しており、性能比較データは後日公開予定です。 その他の新機能には、FP8×FP4混合精度の行列乗算、より大きなMTPに対応したFP4アテンションスコア演算子(Indexer)、GPUのカーネル起動遅延を減らすプログラム依存性起動(PDL)、高速なJITコンパイル速度、そしてMoE行列演算の多くの最適化が含まれます。今回のアップデートでは、DeepEPv2のMoEデータレイアウトにも対応しています。 PRの説明には特に次のように記載されています:「今回のリリースはDeepGEMMの開発にのみ関連し、内部モデルのリリースとは関係ありません。」 (出典:BlockBeats)
DeepSeekオープンソースGPU演算子ライブラリDeepGEMMのメジャーバージョンアップ、Mega MoEを新たに追加し、MoEの五段階演算を単一のカーネルに統合
ME News ニュース、2023年4月16日(UTC+8)、動察Beatingの監視によると、DeepSeekは本日、DeepGEMMのオープンソース以来最大のアップデートを発表しました。この去年2月の「オープンソースウィーク」期間中にリリースされたGPU演算子ライブラリは、元々FP8行列乗算のみをサポートしていましたが、現在は大規模モデル推論の重要な部分をカバーする完全な演算子ライブラリに拡張され、FP8、FP4、BF16の多様な精度の行列演算や、MoEやアテンションスコアなどの専用演算子もサポートしています。
主要な新機能はMega MoEです。MoE(混合専門家)アーキテクチャはDeepSeek V3などのモデルの基盤であり、推論時には五つのステップを順次実行する必要があります:EP分配、第一層線形変換、SwiGLU活性化、第二層線形変換、EP統合。従来の方法は五つの独立したカーネルを順次呼び出し、それぞれの呼び出しは前の処理完了とともに行われ、データはGPUメモリ内を行き来していました。Mega MoEはこれら五つのステップを一つのカーネルに融合し、NVLink通信とTensor Core計算を同時に行うことで、中間の待ち時間やデータ移動を省略しています。
現在のところ、FP8×FP4の精度組み合わせのみをサポートし、PyTorch 2.9以上が必要です。チームは最適化を継続しており、性能比較データは後日公開予定です。
その他の新機能には、FP8×FP4混合精度の行列乗算、より大きなMTPに対応したFP4アテンションスコア演算子(Indexer)、GPUのカーネル起動遅延を減らすプログラム依存性起動(PDL)、高速なJITコンパイル速度、そしてMoE行列演算の多くの最適化が含まれます。今回のアップデートでは、DeepEPv2のMoEデータレイアウトにも対応しています。
PRの説明には特に次のように記載されています:「今回のリリースはDeepGEMMの開発にのみ関連し、内部モデルのリリースとは関係ありません。」
(出典:BlockBeats)