Qwen3.7-Max正式リリース:35時間で自主的にコードを書き1158回、国産チップ上で10倍の高速化演算子を実現

robot
概要作成中

動察 Beating 監測によると、アリ通義千問は正式に次世代のインテリジェントエージェントのフラッグシップ基盤 Qwen3.7-Max をリリースしました。公式公開の実戦データによると、チップアーキテクチャのドキュメントや性能分析データが全くない状態で、新モデルは長さ35時間、1158回のツール呼び出しにわたる完全自律コア最適化タスクにおいて、国産の平頭哥真武 M890 プロセッサの Triton 演算子性能を強制的に10.0倍向上させました。

最適化過程で、モデルは五つのコア進化段階を経ました。まず、Split-K 分割により前置き KVキャッシュをトークン次元に沿って分割し、36個の SM コアを満たしました;次に、ホストとデバイス間の同期を行う cudaMalloc を事前割り当てされた PyTorch 変数に置き換え、テンソルメタデータを使用してクエリ前置き長さの同期 cudaMemcpy 動作を完全に排除し、ホストとデバイス間の通信コストを根絶しました;最後の段階で、モデルは演算子を再構築し、単一のスレッドブロック内で4つのクエリトークンを同時に処理できるようにし、共有ロードによってアクセスメモリの負担を分散し、重要なアーキテクチャレベルの特化再構築を完了しました。

演算子最適化の実測では、Qwen3.7-Maxは10.0倍の幾何平均加速比を達成し、GLM 5.1(7.3倍)や Kimi K2.6(5.0倍)を大きく上回りました。一方、DeepSeek V4 Proは3.3倍にとどまり、後半の五連続ツール呼び出し未発生により早期終了しました。

多様な環境で汎用的な解決策を把握するために、Qwen3.7-Maxは訓練中にタスク、実行フレームワーク、検証器を分離し、フレームワーク横断の強化学習訓練を通じて特定のベンチマークへの過剰適合を避けました。汎用インテリジェントエージェント基準 MCP-Mark(60.8点)や SpreadSheetBench(87.0点)で、Qwen3.7-Maxは非常に高い汎化性を示し、総合性能は Claude-4.6-Opus-Max に迫っています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め