机器人数据「三足鼎立」时代来临,碎片化已成过去式

robot
摘要生成中

机器人学习数据的野蛮生长期结束了。

曾经那个数据集满天飞、各自为政的年代已经过去。到 2025 年中期,整个开源机器人生态已经形成了明确的「三足鼎立」格局——Open X-Embodiment(OXE)、LeRobot 和 InternData-A1 这三个生态系统定义了当下机器人基础模型的实际标杆,大多数 2023 年以前的单一数据集早已失去竞争力。

从分散到统一:这不是巧合

看 Hugging Face Hub 上的机器人数据集演变就能看出,整个行业正在经历从专门面向机构的碎片化集合向大规模、标准化、社区驱动的统一模式转变。

这种转变既不是偶然,也不是谁强行推动的结果。根本上讲,训练通用机器人策略需要规模和标准化;而从生态层面看,那些得到良好支持、与主流框架匹配的项目天然更容易吸引开发者。

三大生态各显神通

OXE:机器人领域的 ImageNet 时刻

Open X-Embodiment 是由 34 家领先机器人实验室在 2023 年底联手推出的联合体。这不是单一数据集,而是 60 多个现有数据集在统一架构下的大整合。

数字说话:

  • 超过 100 万条真实世界轨迹
  • 22 种不同的机器人形态覆盖(从工业机械臂到四足机器人、移动臂)
  • 所有数据转换为基于 TensorFlow 和 Apache Arrow 的 RLDS 标准格式

关键启示很直白——简单操作已经商品化了。抓取放置、开抽屉、单臂装配这类基础任务在数据层面已经被「解决」。这意味着靠贩卖基础远程操作数据赚钱的时代彻底结束。未来的商业价值在于高精度专家数据、真实家庭环境中的长时程操作,或者那些稀缺具身形式(人形、软体)的数据。

LeRobot:PyTorch 阵营的标准答案

与 OXE 代表的 Google/TensorFlow 研究路线不同,Hugging Face 的 LeRobot 迅速成为更广泛开源社区的事实标准——特别是对 PyTorch 爱好者来说。

这个生态的杀手锏是完整的堆栈:数据集 + 模型 + 训练代码 + 评估工具。

存储创新值得一提:LeRobot Dataset v3.0 采用 Apache Parquet + 压缩 MP4/AV1,存储效率比之前提升了 5-10 倍,加载速度也显著改善。

旗舰数据集包括:

  • DROID 1.0.1:来自 50 多个团队的约 76,000 个数据集,刻意在「野外环境」收集,确保最大程度反映真实变化
  • Aloha 系列:高精度双臂和移动双臂数据

现实启示:数据交付标准已经永久转向 Parquet + MP4。任何还在用 ROS 包或原始视频的商业提供商,实际上是在给客户增加不必要的技术负担。

合成数据的「逆袭」:InternData-A1

第三股力量来自大规模高保真合成数据。上海 AI 实验室的 InternData-A1 代表了这个方向的最新进展:

  • 规模:63 万条轨迹,相当于 7,433 小时的机器人工作
  • 物理多样性:不只是刚性物体,还包括关节化物体、流体、颗粒和可变形材料(布料、绳索等)
  • 技术栈:先进物理引擎 + 领域随机化 + 光学逼真渲染 + 自动化课程生成

现实差距:合成数据的天花板

但这里有个关键转折——合成数据虽然在进步,却并非全能。

2025 年 10 月的一份综合调查发现,尽管工程进展显著,但模拟与现实之间的核心差异并未消除,只是被压缩到了更窄但仍然关键的领域。

主要难题包括:

动力学差距:即使是最好的 2025 物理引擎也难以处理混沌现象、可变形物体、薄壳物体(比如布料的屈曲模式、褶皱记忆)以及数值积分累积误差。在模拟中运行良好的策略,在真实接触密集型任务中可能崩溃。

感知传感差距:合成渲染虽然达到了照片级逼真度,但仍存在系统性伪影——真实相机的缺陷模型不准确、缺少次表面散射、光晕效应、尘土等。

执行控制差距:真正的机器人有隐藏控制器随时间漂移,需要针对每个单体微调。

系统环保差距:安全控制器、通讯延迟、未建模的地板合规性在模拟中很难准确还原。

数据显示,当前基础模型(RT-2-X、Octo 等)从模拟迁移到真实机器人时,成功率通常下降 40-80%,在可变形、接触密集和长时程任务中表现最差。

实际上,真实数据还没被淘汰

尽管大规模领域随机化、残差建模、混合训练(90-99% 合成 + 1-10% 真实)等缓解策略在进步,但 2025 年的底线是:零镜头模拟迁移仍然限于中等复杂度的刚体任务和受控环境。

对于涉及可变形物体、流体、高精度组装或非结构化家庭操作的应用,现实世界数据——特别是高质量的专家演示数据——仍然具有不可替代的价值。

这对数据提供商意味着什么? 2026-2028 年的商业机会在于那些结合大规模合成数据和精选真实轨迹的混合方案,尤其是在「难度较高」的领域(布料、液体、密集杂乱场景、多步骤推理)。纯合成数据在可预见的未来都不足以支撑生产级部署。

后记:从「哪个数据集」到「如何混合」

OXE、LeRobot 和 InternData-A1 的汇聚标志着机器人学习数据碎片化时代的真正终结。我们已经进入「后数据集」阶段,关键问题不再是「选哪个数据集」,而是转向了:

  • 如何最有效地混合真实、合成和蒸馏数据?
  • 元数据应该如何设计才能在模型蒸馏中幸存?
  • 哪些具身和物理现象仍然是关键瓶颈?

未来 2-3 年的赢家,将是那些既能产出高质量、符合标准化要求,又能在逐渐缩小的「难点领域」中保持真实数据收集优势的提供者。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)