🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
PyTorch TorchInductor 集成 CuteDSL 作为矩阵乘法自动调优后端
ME News 消息,4 月 7 日(UTC+8),PyTorch 官方团队近日宣布,已将 CuteDSL 作为第四个矩阵乘法自动调优后端集成到 TorchInductor 中。选择该后端基于三个标准:不增加过多维护负担、不拖慢编译或基准测试时间,以及在目标工作负载上提供更好性能。 CuteDSL 由 NVIDIA 积极开发,提供优化内核模板,其编译时间与现有后端相当,并显著优于需要完整 \nvcc\ 编译的 CUTLASS C++ 路径。该后端基于与 CUTLASS C++ 相同的抽象构建,采用 Python 编写,编译更快、维护更简单,在 FP8 GEMM 和 Epilogue 融合方面已证明具有强大性能。 团队专注于优化 GEMM(矩阵乘法),因为其在 Transformer 模型中占据主要计算开销。CuteDSL 通过提供手工优化的模板来生成底层代码,避免了从头编写内核的复杂性,并完全暴露线程和内存层次结构,支持架构特定功能。(来源:InFoQ)