据动察 Beating，Qwen3.7-Max正式发布。35小时、跨1158次工具调用的全自主内核优化任务，平头哥 M890 Triton算子实现10x提升。五阶段优化包括 Split-K 缓存分区、用预分配变量替代 cudaMalloc、用 tensor 元数据去除前缀查询同步、在单线程块内并行处理4个 query token 以共享加载。实测10x加速，超越 GLM5.1、Kimi K2.6，DeepSeek V4 Pro仅3.3x且后期无工具调用而结束。训练解耦任务/框架/验证器，跨框架强化学习，MCP-Mark、SpreadSheetBench上泛化性强，接近 Claude-4.6-Opus-Max。

区块律动

2026-05-20 03:36:50

摘要生成中

据动察 Beating 监测，阿里通义千问正式发布新一代智能体旗舰基底 Qwen3.7-Max。官方公布的实战数据显示，在完全没有芯片架构文档与性能分析数据的情况下，新模型在一项长达 35 小时、跨越 1158 次工具调用的全自主内核优化任务中，将国产平头哥真武 M890 处理器的 Triton 算子性能强行提升了 10.0 倍。

在优化过程中，模型历经了五个核心演进阶段。它首先通过 Split-K 分区将前缀 KV-cache 沿 token 维度划分以填满 36 个 SM 核心；随后将主机与设备间同步的 cudaMalloc 替换为预分配的 PyTorch 变量，并通过使用 tensor 元数据完全抹去了查询前缀长度时的同步 cudaMemcpy 动作，彻底移除了主机与设备间的通信开销；在最后阶段，模型重构算子以在单个线程块中同时处理全部 4 个 query token，共享加载以分摊访存开销，完成了关键的架构级特化重构。

算子优化实测显示，Qwen3.7-Max 取得 10.0x 几何平均加速比，显著超越 GLM 5.1（7.3x）与 Kimi K2.6（5.0x）。而 DeepSeek V4 Pro 仅为 3.3x 且在后半程因连续五轮未发出任何工具调用而提前主动结束任务。

为了在多变环境里掌握通用的解题策略，Qwen3.7-Max 在训练中将任务、运行框架与验证器进行了解耦，并通过跨框架强化学习训练避免了针对特定基准的捷径过拟合。在通用的智能体基准 MCP-Mark（60.8 分）与 SpreadSheetBench（87.0 分）上，Qwen3.7-Max 展现了极强的泛化性，综合性能表现已紧逼 Claude-4.6-Opus-Max。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
TradFi交易分享挑战
18.47万热度
#
30年期美债收益率突破5%
35.91万热度
#
Polymarket每日热点
100.27万热度
#
RWA总市值突破650亿美元
875.68万热度
#
Gate广场披萨节
167.64万热度

Qwen3.7-Max正式发布：35小时自主写代码1158次，在国产芯片上炼出10倍加速算子

热门话题

TradFi交易分享挑战

30年期美债收益率突破5%

Polymarket每日热点

RWA总市值突破650亿美元

Gate广场披萨节

置顶