広場
最新
注目
ニュース
プロフィール
ポスト
Qwen3.7-Max正式リリース:35時間で自主的にコードを1158回書き、国産チップ上で10倍高速化演算子を生み出した
MeNews
2026-06-25 02:37:22
フォロー
概要作成中
AIMPACT ニュース、5月20日(UTC+8)、動察 Beating の監視によると、阿里通義千問(Alibaba Tongyi Qianwen)は新世代のエージェント向けフラッグシップベースモデル「Qwen3.7-Max」を正式に発表した。
公式に公開された実戦データによると、チップアーキテクチャのドキュメントや性能分析データが全くない状況で、新モデルは35時間にわたり1158回のツール呼び出しを伴う完全自律カーネル最適化タスクにおいて、国産の平頭哥真武 M890 プロセッサの Triton オペレータの性能を10.0倍に強力に向上させた。
最適化プロセスにおいて、モデルは5つの主要な進化段階を経た。まず Split-K パーティショニングによりプレフィックス KV-cache を token 次元に沿って分割し、36個の SM コアを満たした。次に、ホストとデバイス間の同期 cudaMalloc を事前割り当てされた PyTorch 変数に置き換え、tensor メタデータを使用してクエリプレフィックス長を確認する際の同期 cudaMemcpy 動作を完全に排除し、ホストとデバイス間の通信オーバーヘッドを完全に除去した。最終段階では、モデルはオペレータを再構築し、単一のスレッドブロック内で4つすべてのクエリ token を同時に処理し、ロードを共有してメモリアクセスオーバーヘッドを分散させ、重要なアーキテクチャレベルの特化再構築を完了した。
オペレータ最適化の実測結果によると、Qwen3.7-Max は幾何平均で10.0倍の高速化を達成し、GLM 5.1(7.3倍)や Kimi K2.6(5.0倍)を大幅に上回った。一方、DeepSeek V4 Pro はわずか3.3倍であり、後半では5回連続でツール呼び出しを行わなかったため、自ら早期にタスクを終了した。
変化の多い環境で汎用的な問題解決戦略を習得するため、Qwen3.7-Max はトレーニングにおいてタスク、実行フレームワーク、検証器を分離し、フレームワーク横断的な強化学習トレーニングにより特定のベンチマークへの近道過学習を回避した。
汎用エージェントベンチマーク MCP-Mark(60.8点)と SpreadSheetBench(87.0点)において、Qwen3.7-Max は極めて強い汎化性能を示し、総合性能は Claude-4.6-Opus-Max に迫っている。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
SKHynixTopsKOSPIByMarketCap
1.47M 人気度
#
BTCProbes60KKeySupportLevel
329.04M 人気度
#
IsraelStrikesIranBTCPlunges
62.7K 人気度
#
WorldCup🏴vs🇧🇷
288.81K 人気度
#
TradFiCFDGoldMaster
2.18M 人気度
ピン留め
サイトマップ
Qwen3.7-Max正式リリース:35時間で自主的にコードを1158回書き、国産チップ上で10倍高速化演算子を生み出した
公式に公開された実戦データによると、チップアーキテクチャのドキュメントや性能分析データが全くない状況で、新モデルは35時間にわたり1158回のツール呼び出しを伴う完全自律カーネル最適化タスクにおいて、国産の平頭哥真武 M890 プロセッサの Triton オペレータの性能を10.0倍に強力に向上させた。
最適化プロセスにおいて、モデルは5つの主要な進化段階を経た。まず Split-K パーティショニングによりプレフィックス KV-cache を token 次元に沿って分割し、36個の SM コアを満たした。次に、ホストとデバイス間の同期 cudaMalloc を事前割り当てされた PyTorch 変数に置き換え、tensor メタデータを使用してクエリプレフィックス長を確認する際の同期 cudaMemcpy 動作を完全に排除し、ホストとデバイス間の通信オーバーヘッドを完全に除去した。最終段階では、モデルはオペレータを再構築し、単一のスレッドブロック内で4つすべてのクエリ token を同時に処理し、ロードを共有してメモリアクセスオーバーヘッドを分散させ、重要なアーキテクチャレベルの特化再構築を完了した。
オペレータ最適化の実測結果によると、Qwen3.7-Max は幾何平均で10.0倍の高速化を達成し、GLM 5.1(7.3倍)や Kimi K2.6(5.0倍)を大幅に上回った。一方、DeepSeek V4 Pro はわずか3.3倍であり、後半では5回連続でツール呼び出しを行わなかったため、自ら早期にタスクを終了した。
変化の多い環境で汎用的な問題解決戦略を習得するため、Qwen3.7-Max はトレーニングにおいてタスク、実行フレームワーク、検証器を分離し、フレームワーク横断的な強化学習トレーニングにより特定のベンチマークへの近道過学習を回避した。
汎用エージェントベンチマーク MCP-Mark(60.8点)と SpreadSheetBench(87.0点)において、Qwen3.7-Max は極めて強い汎化性能を示し、総合性能は Claude-4.6-Opus-Max に迫っている。
(出典:BlockBeats)