MiniMaxオープンソースBlackwell専用アテンションライブラリ、M3ウェイトは今週金曜日にリリース予定

robot
概要作成中
ME AI メッセージによると、動察Beatingの監視によると、MiniMaxの開発者関係責任者Ryan Leeは、NVIDIA Blackwell(SM100)GPU向けの高性能アテンションライブラリMiniMax Sparse Attention(MSA)が正式にオープンソース化され、MITライセンスを採用したと発表しました。Ryan Leeはまた、MiniMax-M3の重みは今週金曜日にリリースされる予定だとも述べています。
MSAはMiniMax-M3の百万規模のコンテキスト推論に適用されており、各GQAグループ内で最も関連性の高いKVブロックを選別することで、選択されたブロックのみでアテンション計算を実行します。
論文によると、100万トークンのコンテキスト下で、同じ構成のDense GQAと比較して、MSAはアテンション計算量を28.4倍削減し、H800 GPU上で14.2倍の事前充填速度向上と7.6倍のデコード速度向上を実現しています。
オープンソース版は、同じPythonパッケージ内にC++ JITとCuTe-DSLの2つの実装を統合し、Dense FlashAttentionとSparse Top-k Attention Kernelを提供し、BF16、FP8、NVFP4、FP4などの多様な精度フォーマットをサポートしています。
現在主にNVIDIA Blackwell(SM100)GPUへの展開を想定しています。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め