4月16日、DeepGEMMは史上最大のアップデートをリリースし、大規模モデル推論をカバーする完全な演算子ライブラリに拡張されました。FP8/FP4/BF16の行列演算やMoE、注意力などの専用演算子をサポートします。コアはMega MoEで、五段階の推論を一つのカーネルに統合し、NVLinkとTensor Coreを利用して並列化し、待機時間とデータ転送を大幅に削減します。現在はFP8×FP4のみをサポートし、PyTorch 2.9+が必要です。性能データは後日公開予定です。アップデートにはFP8×FP4の行列乗算、FP4注意力スコア、PDLやより高速なJITなどの最適化も含まれ、DeepEPv2 MoEのデータレイアウトにも適合しています。

MeNews

2026-05-14 18:50:03

概要作成中

ME News ニュース、2023年4月16日（UTC+8）、動察Beatingの監視によると、DeepSeekは本日、DeepGEMMのオープンソース以来最大のアップデートを発表しました。この去年2月の「オープンソースウィーク」期間中にリリースされたGPU演算子ライブラリは、元々FP8行列乗算のみをサポートしていましたが、現在は大規模モデル推論の重要な部分をカバーする完全な演算子ライブラリに拡張され、FP8、FP4、BF16の多様な精度の行列演算や、MoEやアテンションスコアなどの専用演算子もサポートしています。
主要な新機能はMega MoEです。MoE（混合専門家）アーキテクチャはDeepSeek V3などのモデルの基盤であり、推論時には五つのステップを順次実行する必要があります：EP分配、第一層線形変換、SwiGLU活性化、第二層線形変換、EP統合。従来の方法は五つの独立したカーネルを順次呼び出し、それぞれの呼び出しは前の処理完了とともに行われ、データはGPUメモリ内を行き来していました。Mega MoEはこれら五つのステップを一つのカーネルに融合し、NVLink通信とTensor Core計算を同時に行うことで、中間の待ち時間やデータ移動を省略しています。
現在のところ、FP8×FP4の精度組み合わせのみをサポートし、PyTorch 2.9以上が必要です。チームは最適化を継続しており、性能比較データは後日公開予定です。
その他の新機能には、FP8×FP4混合精度の行列乗算、より大きなMTPに対応したFP4アテンションスコア演算子（Indexer）、GPUのカーネル起動遅延を減らすプログラム依存性起動（PDL）、高速なJITコンパイル速度、そしてMoE行列演算の多くの最適化が含まれます。今回のアップデートでは、DeepEPv2のMoEデータレイアウトにも対応しています。
PRの説明には特に次のように記載されています：「今回のリリースはDeepGEMMの開発にのみ関連し、内部モデルのリリースとは関係ありません。」
（出典：BlockBeats）

DEEPSEEK-4.88%

MEGA2.17%

KERNEL1.12%

ME1.26%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。