阿里巴巴推出 Qwen-Robot 三模型!机器人导航、操控、物理模拟一次到位

阿里巴巴 Qwen 團队发布 Qwen-Robot Suite,包含導航、操控与物理世界模擬三大基礎模型,在多項机器人基準測試中排名第一,被視为机器人领域的 Android 时刻。
(前情提要:阿里千问推出「Qwen3.7-Plus」模型价格大幅下降,但代价是不开放權重)
(背景補充:Meta 进軍人形机器人!秘密收購 AI 新創 Assured Robot Intelligence,押注「物理世界互动」通往 AGI)

本文目錄

Toggle

  • Qwen-RobotNav:五合一導航模型
  • Qwen-RobotManip:跨机器人操控
  • Qwen-RobotWorld:语言即通用介面
  • 与西方实验室比起来如何?

(来源:Decrypt、Qwen 官方部落格)

阿裡巴巴 Qwen 團队週二发布了 Qwen-Robot Suite,一套由三个基礎模型組成的「具身智慧全棧」。Qwen-RobotNav 负责移动導航,Qwen-RobotManip 负责机械操控,Qwen-RobotWorld 负责物理世界模擬。三个模型各自獨立运作,合在一起則構成了机器人领域的「Android 时刻」,它是作业系统,而非硬體。

Qwen-RobotNav:五合一導航模型

導航模型整合了指令跟随、目標点導航、物件搜尋、目標追蹤和自主駕駛五項任務,每種任務需要不同的視覺記憶策略。多數模型只锁定單一策略,Qwen-RobotNav 則提供可引數化的介面:token 预算、时间衰減、每镜头權重,規劃器可以在執行中重新配置。

該模型在 1,560 万筆樣本上訓練,在 VLN-CE RxR 基準測試(真实環境的視覺与语言導航)中成功率高达 76.5%,在 EVT-Bench(移动目標追蹤)上达到 90%。

Qwen-RobotManip:跨机器人操控

不同机器人的动作表示方式截然不同,Franka 机械臂使用关節角度,ALOHA 雙臂机器人使用夾爪位置和方向,人形机器人則使用全身座標。阿裡巴巴从开源机器人资料庫和人類影片中合成了约 38,100 小时的訓練资料,沒有依賴私有资料收集。

模型在 RoboChallenge Table30-v1 基準測試中排名第一,超越先前方法 20%。

Qwen-RobotWorld:语言即通用介面

这是最雄心勃勃的模型,一个以语言为條件的影片世界模型,將自然语言作为通用动作介面。「拿起紅色杯子往花上倒水」这个指令,无論是对夾爪、自駕车还是移动導航代理都通用。

具身世界知识语料庫涵蓋 860 万筆影片文字配对,2 亿幀,橫跨操控(590 万筆樣本、1,300+ 技能、20+ 形態)、自主駕駛(Waymo、NVIDIA PhysicalAI-AD)、室內導航和跨 14 種机械臂的人机转移。模型在 EWMBench 和 DreamGen Bench 两項基準測試中排名第一,在牛頓定律、质量守恆、流體动力学和重力等物理一致性測試中獲得滿分。

与西方实验室比起来如何?

Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方实验室也在追求類似目標,但大多專注於導航或操控,而非统一可組裝的套件。阿裡巴巴从晶片到应用的垂直整合意味著它掌控了完整生態链,且这些模型全部开源。

不过开发者也提醒,这些是软體模型而非实體机器人,实际部署在家用场景仍需數年时间。阿裡巴巴目前尚未公布定价、时间表或試点计畫之外的客戶名單。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论