📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
阿里巴巴推出了用于机器人控制的人工智能模型 - ForkLog
阿里巴巴推出了Qwen-Robot Suite——一套用于机器人和物理环境任务的AI模型:Qwen-RobotNav用于导航,Qwen-RobotManip用于操作,Qwen-RobotWorld用于场景预测。团队将该项目描述为“完整的体现式人工智能技术栈”。
这里指的是旨在帮助物理智能体感知环境、规划行动并用自然语言执行命令的软件模型。Qwen-Robot Suite已在阿里云的部分机器人客户中进行试点测试。
为什么阿里巴巴将Qwen推向物理世界
大型语言模型和多模态模型已能处理文本、图像、视频和语音,但这对于机器人来说还不够。物理智能体不仅需要理解指令,还要将其转化为运动,考虑空间、对象属性、传感器限制和行动后果。
阿里巴巴称之为“physical AI”或“体现式AI”的方向。在这种方法中,模型不仅要处理数字数据,还要与物理环境交互:移动、寻找对象、操控机械臂,并预测行动后的场景变化。
Qwen-RobotNav:一模型应对五项导航任务
Qwen-RobotNav负责导航。该模型整合了五类任务:
据阿里巴巴介绍,Qwen-RobotNav基于Qwen3-VL构建,使用1550万个与路径规划和视觉-语言推理相关的样本进行训练。
公司声称在VLN-CE RxR中成功率达76.5%,在EVT-Bench中达90%。阿里巴巴还补充,模型可以作为更大智能体系统的工具:上层模型规划任务,Qwen-RobotNav负责移动。
Qwen-RobotManip:对象操作
Qwen-RobotManip用于物理操作。模型应帮助机器人抓取、移动和放置物品,还能在不同设备类型之间迁移技能。
阿里巴巴为训练使用了超过38100小时的数据,包括11320小时的开源机器人数据、1933小时的第一人称人类动作视频和24808小时的合成机器人演示,基于这些视频生成。
公司表示,该模型在RoboChallenge Table30 v1的通用模型赛道中排名第一。据阿里巴巴介绍,Qwen-RobotManip还表现出对新指令、未知对象的鲁棒性,以及技能在不同机器人间迁移的能力。
Qwen-RobotWorld:机器人世界模型
Qwen-RobotWorld是由自然语言控制的场景视频模型。它应能预测在给定动作后场景的未来发展。
为训练Qwen-RobotWorld,团队构建了“体现式世界知识”语料库。包括860万对“视频-文本”配对和超过2亿帧,涵盖20多种机器人平台和超过500类动作。
阿里巴巴表示,Qwen-RobotWorld在EWMBench和DreamGen Bench中排名第一,还超越了所有公开模型在WorldModelBench和PBench中的表现。技术描述中还提到,该模型表现出与基本物理规律高度一致——运动、质量守恒、流体和重力。
迈向大规模机器人应用尚远
尽管取得了上述成果,Qwen-Robot Suite目前仍是模型集,而非成熟的消费级机器人平台。实际应用中会遇到传感器噪声、驱动磨损、非标准场景、感知误差和大量稀有场景。许多基准测试在模拟环境或受控条件下进行。
阿里巴巴也未披露访问成本、公开发布时间表及已测试Qwen-Robot Suite的客户名单。
提醒一下,4月阿里云推出了带有100万Token上下文窗口和外部工具支持的代理模型Qwen3.6-Plus。