📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
阿里巴巴推出 Qwen-Robot 三模型!机器人导航、操控、物理模拟一次到位
阿里巴巴 Qwen 團队发布 Qwen-Robot Suite,包含導航、操控与物理世界模擬三大基礎模型,在多項机器人基準測試中排名第一,被視为机器人领域的 Android 时刻。
(前情提要:阿里千问推出「Qwen3.7-Plus」模型价格大幅下降,但代价是不开放權重)
(背景補充:Meta 进軍人形机器人!秘密收購 AI 新創 Assured Robot Intelligence,押注「物理世界互动」通往 AGI)
本文目錄
Toggle
(来源:Decrypt、Qwen 官方部落格)
阿裡巴巴 Qwen 團队週二发布了 Qwen-Robot Suite,一套由三个基礎模型組成的「具身智慧全棧」。Qwen-RobotNav 负责移动導航,Qwen-RobotManip 负责机械操控,Qwen-RobotWorld 负责物理世界模擬。三个模型各自獨立运作,合在一起則構成了机器人领域的「Android 时刻」,它是作业系统,而非硬體。
Qwen-RobotNav:五合一導航模型
導航模型整合了指令跟随、目標点導航、物件搜尋、目標追蹤和自主駕駛五項任務,每種任務需要不同的視覺記憶策略。多數模型只锁定單一策略,Qwen-RobotNav 則提供可引數化的介面:token 预算、时间衰減、每镜头權重,規劃器可以在執行中重新配置。
該模型在 1,560 万筆樣本上訓練,在 VLN-CE RxR 基準測試(真实環境的視覺与语言導航)中成功率高达 76.5%,在 EVT-Bench(移动目標追蹤)上达到 90%。
Qwen-RobotManip:跨机器人操控
不同机器人的动作表示方式截然不同,Franka 机械臂使用关節角度,ALOHA 雙臂机器人使用夾爪位置和方向,人形机器人則使用全身座標。阿裡巴巴从开源机器人资料庫和人類影片中合成了约 38,100 小时的訓練资料,沒有依賴私有资料收集。
模型在 RoboChallenge Table30-v1 基準測試中排名第一,超越先前方法 20%。
Qwen-RobotWorld:语言即通用介面
这是最雄心勃勃的模型,一个以语言为條件的影片世界模型,將自然语言作为通用动作介面。「拿起紅色杯子往花上倒水」这个指令,无論是对夾爪、自駕车还是移动導航代理都通用。
具身世界知识语料庫涵蓋 860 万筆影片文字配对,2 亿幀,橫跨操控(590 万筆樣本、1,300+ 技能、20+ 形態)、自主駕駛(Waymo、NVIDIA PhysicalAI-AD)、室內導航和跨 14 種机械臂的人机转移。模型在 EWMBench 和 DreamGen Bench 两項基準測試中排名第一,在牛頓定律、质量守恆、流體动力学和重力等物理一致性測試中獲得滿分。
与西方实验室比起来如何?
Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方实验室也在追求類似目標,但大多專注於導航或操控,而非统一可組裝的套件。阿裡巴巴从晶片到应用的垂直整合意味著它掌控了完整生態链,且这些模型全部开源。
不过开发者也提醒,这些是软體模型而非实體机器人,实际部署在家用场景仍需數年时间。阿裡巴巴目前尚未公布定价、时间表或試点计畫之外的客戶名單。