阿裡巴巴推出 Qwen-Robot 三模型！機器人導航、操控、物理模擬一次到位

2026-06-17 04:40:29

阿裡巴巴 Qwen 團隊發布 Qwen-Robot Suite，包含導航、操控與物理世界模擬三大基礎模型，在多項機器人基準測試中排名第一，被視為機器人領域的 Android 時刻。
（前情提要：阿里千問推出「Qwen3.7-Plus」模型價格大幅下降，但代價是不開放權重）
（背景補充：Meta 進軍人形機器人！秘密收購 AI 新創 Assured Robot Intelligence，押注「物理世界互動」通往 AGI）

本文目錄

Toggle

Qwen-RobotNav：五合一導航模型
Qwen-RobotManip：跨機器人操控
Qwen-RobotWorld：語言即通用介面
與西方實驗室比起來如何？

（來源：Decrypt、Qwen 官方部落格）

阿裡巴巴 Qwen 團隊週二發布了 Qwen-Robot Suite，一套由三個基礎模型組成的「具身智慧全棧」。Qwen-RobotNav 負責移動導航，Qwen-RobotManip 負責機械操控，Qwen-RobotWorld 負責物理世界模擬。三個模型各自獨立運作，合在一起則構成了機器人領域的「Android 時刻」，它是作業系統，而非硬體。

Qwen-RobotNav：五合一導航模型

導航模型整合了指令跟隨、目標點導航、物件搜尋、目標追蹤和自主駕駛五項任務，每種任務需要不同的視覺記憶策略。多數模型只鎖定單一策略，Qwen-RobotNav 則提供可引數化的介面：token 預算、時間衰減、每鏡頭權重，規劃器可以在執行中重新配置。

該模型在 1,560 萬筆樣本上訓練，在 VLN-CE RxR 基準測試（真實環境的視覺與語言導航）中成功率高達 76.5%，在 EVT-Bench（移動目標追蹤）上達到 90%。

Qwen-RobotManip：跨機器人操控

不同機器人的動作表示方式截然不同，Franka 機械臂使用關節角度，ALOHA 雙臂機器人使用夾爪位置和方向，人形機器人則使用全身座標。阿裡巴巴從開源機器人資料庫和人類影片中合成了約 38,100 小時的訓練資料，沒有依賴私有資料收集。

模型在 RoboChallenge Table30-v1 基準測試中排名第一，超越先前方法 20%。

Qwen-RobotWorld：語言即通用介面

這是最雄心勃勃的模型，一個以語言為條件的影片世界模型，將自然語言作為通用動作介面。「拿起紅色杯子往花上倒水」這個指令，無論是對夾爪、自駕車還是移動導航代理都通用。

具身世界知識語料庫涵蓋 860 萬筆影片文字配對，2 億幀，橫跨操控（590 萬筆樣本、1,300+ 技能、20+ 形態）、自主駕駛（Waymo、NVIDIA PhysicalAI-AD）、室內導航和跨 14 種機械臂的人機轉移。模型在 EWMBench 和 DreamGen Bench 兩項基準測試中排名第一，在牛頓定律、質量守恆、流體動力學和重力等物理一致性測試中獲得滿分。

與西方實驗室比起來如何？

Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方實驗室也在追求類似目標，但大多專注於導航或操控，而非統一可組裝的套件。阿裡巴巴從晶片到應用的垂直整合意味著它掌控了完整生態鏈，且這些模型全部開源。

不過開發者也提醒，這些是軟體模型而非實體機器人，實際部署在家用場景仍需數年時間。阿裡巴巴目前尚未公布定價、時間表或試點計畫之外的客戶名單。

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
我的Gate交易時刻
63.89萬熱度
#
TradFiCFD黃金大師賽
205.26萬熱度
#
預測世界盃英格蘭VS克羅地亞
84.15萬熱度
#
Gate現貨交易量增幅全球第一
6840.74萬熱度
#
Marvell大跌近10%
13.35萬熱度

阿裡巴巴推出 Qwen-Robot 三模型！機器人導航、操控、物理模擬一次到位

Qwen-RobotNav：五合一導航模型

Qwen-RobotManip：跨機器人操控

Qwen-RobotWorld：語言即通用介面

與西方實驗室比起來如何？

熱門話題

我的Gate交易時刻

TradFiCFD黃金大師賽

預測世界盃英格蘭VS克羅地亞

Gate現貨交易量增幅全球第一

Marvell大跌近10%

已置頂