据动察 Beating，Qwen3.7-Max正式发布。 35小时、跨1158次工具调用的全自主内核优化任务，平头哥 M890 Triton算子实现10x提升。五阶段优化包括 Split-K 缓存分区、用预分配变量替代 cudaMalloc、用 tensor 元数据去除前缀查询同步、在单线程块内并行处理4个 query token 以共享加载。实测10x加速，超越 GLM5.1、Kimi K2.6，DeepSeek V4 Pro仅3.3x且后期无工具调用而结束。训练解耦任务/框架/验证器，跨框架强化学习，MCP-Mark、SpreadSheetBench上泛化性强，接近 Claude-4.6-Opus-Max。

BlockBeatNews

2026-05-20 03:36:50

概要作成中

動察 Beating 監測によると、アリ通義千問は正式に次世代のインテリジェントエージェントのフラッグシップ基盤 Qwen3.7-Max をリリースしました。公式公開の実戦データによると、チップアーキテクチャのドキュメントや性能分析データが全くない状態で、新モデルは長さ35時間、1158回のツール呼び出しにわたる完全自律コア最適化タスクにおいて、国産の平頭哥真武 M890 プロセッサの Triton 演算子性能を強制的に10.0倍向上させました。

最適化過程で、モデルは五つのコア進化段階を経ました。まず、Split-K 分割により前置き KVキャッシュをトークン次元に沿って分割し、36個の SM コアを満たしました；次に、ホストとデバイス間の同期を行う cudaMalloc を事前割り当てされた PyTorch 変数に置き換え、テンソルメタデータを使用してクエリ前置き長さの同期 cudaMemcpy 動作を完全に排除し、ホストとデバイス間の通信コストを根絶しました；最後の段階で、モデルは演算子を再構築し、単一のスレッドブロック内で4つのクエリトークンを同時に処理できるようにし、共有ロードによってアクセスメモリの負担を分散し、重要なアーキテクチャレベルの特化再構築を完了しました。

演算子最適化の実測では、Qwen3.7-Maxは10.0倍の幾何平均加速比を達成し、GLM 5.1（7.3倍）や Kimi K2.6（5.0倍）を大きく上回りました。一方、DeepSeek V4 Proは3.3倍にとどまり、後半の五連続ツール呼び出し未発生により早期終了しました。

多様な環境で汎用的な解決策を把握するために、Qwen3.7-Maxは訓練中にタスク、実行フレームワーク、検証器を分離し、フレームワーク横断の強化学習訓練を通じて特定のベンチマークへの過剰適合を避けました。汎用インテリジェントエージェント基準 MCP-Mark（60.8点）や SpreadSheetBench（87.0点）で、Qwen3.7-Maxは非常に高い汎化性を示し、総合性能は Claude-4.6-Opus-Max に迫っています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。