MiniMax开源Blackwell专属注意力库,M3权重预计本周五发布

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,MiniMax 开发者关系负责人 Ryan Lee 宣布,面向 NVIDIA Blackwell(SM100)GPU 的高性能注意力库 MiniMax Sparse Attention(MSA)已正式开源,采用 MIT 协议。Ryan Lee 同时表示,MiniMax-M3 权重预计将于本周五发布。 MSA 已被应用于 MiniMax-M3 的百万级上下文推理,通过在每个 GQA 组中筛选最相关的 KV Block,仅对选中块执行注意力计算。论文显示,在 100 万 Token 上下文下,相比同配置的 Dense GQA,MSA 可将注意力计算量降低 28.4 倍,并在 H800 GPU 上实现 14.2 倍预填充加速和 7.6 倍解码加速。 开源版本在同一个 Python 包中集成了 C++ JIT 与 CuTe-DSL 两套实现,同时提供 Dense FlashAttention 与 Sparse Top-k Attention Kernel,支持 BF16、FP8、NVFP4 和 FP4 等多种精度格式。目前主要面向 NVIDIA Blackwell(SM100)GPU 部署。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论