廣場
最新
熱門
新聞
我的主頁
發布
Qwen3.7-Max正式發布:35小時自主寫程式碼1158次,在國產晶片上煉出10倍加速運算子
ME News
2026-06-25 02:37:22
關注
摘要生成中
AIMPACT 消息,5 月 20 日(UTC+8),據 動察 Beating 監測,阿里通義千問正式發佈新一代智能體旗艦基底 Qwen3.7-Max。官方公佈的實戰數據顯示,在完全沒有晶片架構文檔與性能分析數據的情況下,新模型在一項長達 35 小時、跨越 1158 次工具調用的全自主內核優化任務中,將國產平頭哥真武 M890 處理器的 Triton 算子性能強行提升了 10.0 倍。 在優化過程中,模型歷經了五個核心演進階段。它首先通過 Split-K 分區將前綴 KV-cache 沿 token 維度劃分以填滿 36 個 SM 核心;隨後將主機與設備間同步的 cudaMalloc 替換為預分配的 PyTorch 變量,並通過使用 tensor 元數據完全抹去了查詢前綴長度時的同步 cudaMemcpy 動作,徹底移除了主機與設備間的通信開銷;在最後階段,模型重構算子以在單個線程塊中同時處理全部 4 個 query token,共享加載以分攤訪存開銷,完成了關鍵的架構級特化重構。 算子優化實測顯示,Qwen3.7-Max 取得 10.0x 幾何平均加速比,顯著超越 GLM 5.1(7.3x)與 Kimi K2.6(5.0x)。而 DeepSeek V4 Pro 僅為 3.3x 且在後半程因連續五輪未發出任何工具調用而提前主動結束任務。 為了在多變環境裡掌握通用的解題策略,Qwen3.7-Max 在訓練中將任務、運行框架與驗證器進行了解耦,並通過跨框架強化學習訓練避免了針對特定基準的捷徑過擬合。在通用的智能體基準 MCP-Mark(60.8 分)與 SpreadSheetBench(87.0 分)上,Qwen3.7-Max 展現了極強的泛化性,綜合性能表現已緊逼 Claude-4.6-Opus-Max。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
148.38萬 熱度
#
BTC下探60000美元關鍵關口
3.78億 熱度
#
美國VS土耳其
29.29萬 熱度
#
TradFiCFD黃金大師賽
218.45萬 熱度
#
USD1鏈上質押享年化9.48%
96.64萬 熱度
已置頂
網站地圖
Qwen3.7-Max正式發布:35小時自主寫程式碼1158次,在國產晶片上煉出10倍加速運算子