PyTorch TorchInductor 集成 CuteDSL 作为矩阵乘法自动调优后端

robot
摘要生成中

ME News 消息,4 月 7 日(UTC+8),PyTorch 官方团队近日宣布,已将 CuteDSL 作为第四个矩阵乘法自动调优后端集成到 TorchInductor 中。选择该后端基于三个标准:不增加过多维护负担、不拖慢编译或基准测试时间,以及在目标工作负载上提供更好性能。 CuteDSL 由 NVIDIA 积极开发,提供优化内核模板,其编译时间与现有后端相当,并显著优于需要完整 \nvcc\ 编译的 CUTLASS C++ 路径。该后端基于与 CUTLASS C++ 相同的抽象构建,采用 Python 编写,编译更快、维护更简单,在 FP8 GEMM 和 Epilogue 融合方面已证明具有强大性能。 团队专注于优化 GEMM(矩阵乘法),因为其在 Transformer 模型中占据主要计算开销。CuteDSL 通过提供手工优化的模板来生成底层代码,避免了从头编写内核的复杂性,并完全暴露线程和内存层次结构,支持架构特定功能。(来源:InFoQ)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论