阿裡巴巴推出 Qwen-Robot 三模型!機器人導航、操控、物理模擬一次到位

阿裡巴巴 Qwen 團隊發布 Qwen-Robot Suite,包含導航、操控與物理世界模擬三大基礎模型,在多項機器人基準測試中排名第一,被視為機器人領域的 Android 時刻。
(前情提要:阿里千問推出「Qwen3.7-Plus」模型價格大幅下降,但代價是不開放權重)
(背景補充:Meta 進軍人形機器人!秘密收購 AI 新創 Assured Robot Intelligence,押注「物理世界互動」通往 AGI)

本文目錄

Toggle

  • Qwen-RobotNav:五合一導航模型
  • Qwen-RobotManip:跨機器人操控
  • Qwen-RobotWorld:語言即通用介面
  • 與西方實驗室比起來如何?

(來源:Decrypt、Qwen 官方部落格)

阿裡巴巴 Qwen 團隊週二發布了 Qwen-Robot Suite,一套由三個基礎模型組成的「具身智慧全棧」。Qwen-RobotNav 負責移動導航,Qwen-RobotManip 負責機械操控,Qwen-RobotWorld 負責物理世界模擬。三個模型各自獨立運作,合在一起則構成了機器人領域的「Android 時刻」,它是作業系統,而非硬體。

Qwen-RobotNav:五合一導航模型

導航模型整合了指令跟隨、目標點導航、物件搜尋、目標追蹤和自主駕駛五項任務,每種任務需要不同的視覺記憶策略。多數模型只鎖定單一策略,Qwen-RobotNav 則提供可引數化的介面:token 預算、時間衰減、每鏡頭權重,規劃器可以在執行中重新配置。

該模型在 1,560 萬筆樣本上訓練,在 VLN-CE RxR 基準測試(真實環境的視覺與語言導航)中成功率高達 76.5%,在 EVT-Bench(移動目標追蹤)上達到 90%。

Qwen-RobotManip:跨機器人操控

不同機器人的動作表示方式截然不同,Franka 機械臂使用關節角度,ALOHA 雙臂機器人使用夾爪位置和方向,人形機器人則使用全身座標。阿裡巴巴從開源機器人資料庫和人類影片中合成了約 38,100 小時的訓練資料,沒有依賴私有資料收集。

模型在 RoboChallenge Table30-v1 基準測試中排名第一,超越先前方法 20%。

Qwen-RobotWorld:語言即通用介面

這是最雄心勃勃的模型,一個以語言為條件的影片世界模型,將自然語言作為通用動作介面。「拿起紅色杯子往花上倒水」這個指令,無論是對夾爪、自駕車還是移動導航代理都通用。

具身世界知識語料庫涵蓋 860 萬筆影片文字配對,2 億幀,橫跨操控(590 萬筆樣本、1,300+ 技能、20+ 形態)、自主駕駛(Waymo、NVIDIA PhysicalAI-AD)、室內導航和跨 14 種機械臂的人機轉移。模型在 EWMBench 和 DreamGen Bench 兩項基準測試中排名第一,在牛頓定律、質量守恆、流體動力學和重力等物理一致性測試中獲得滿分。

與西方實驗室比起來如何?

Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方實驗室也在追求類似目標,但大多專注於導航或操控,而非統一可組裝的套件。阿裡巴巴從晶片到應用的垂直整合意味著它掌控了完整生態鏈,且這些模型全部開源。

不過開發者也提醒,這些是軟體模型而非實體機器人,實際部署在家用場景仍需數年時間。阿裡巴巴目前尚未公布定價、時間表或試點計畫之外的客戶名單。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆