MiniMax開源Blackwell專屬注意力庫,M3權重預計本週五發布

robot
摘要生成中
ME AI 消息,據 動察 Beating 監測,MiniMax 開發者關係負責人 Ryan Lee 宣布,面向 NVIDIA Blackwell(SM100)GPU 的高性能注意力庫 MiniMax Sparse Attention(MSA)已正式開源,採用 MIT 協議。Ryan Lee 同時表示,MiniMax-M3 權重預計將於本周五發布。 MSA 已被應用於 MiniMax-M3 的百萬級上下文推理,通過在每個 GQA 組中篩選最相關的 KV Block,僅對選中塊執行注意力計算。論文顯示,在 100 萬 Token 上下文下,相比同配置的 Dense GQA,MSA 可將注意力計算量降低 28.4 倍,並在 H800 GPU 上實現 14.2 倍預填充加速和 7.6 倍解碼加速。 開源版本在同一個 Python 包中集成了 C++ JIT 與 CuTe-DSL 兩套實現,同時提供 Dense FlashAttention 與 Sparse Top-k Attention Kernel,支持 BF16、FP8、NVFP4 和 FP4 等多種精度格式。目前主要面向 NVIDIA Blackwell(SM100)GPU 部署。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆