Эра «три ноги» в данных роботов наступила, фрагментация стала прошлым

robot
Генерация тезисов в процессе

Ранний бум данных для обучения роботов завершился.

Когда-то эпоха, когда наборы данных летали повсюду и развивались независимо, ушла в прошлое. К середине 2025 года вся экосистема открытых роботов сформировала ясную «триумвиратную» структуру — Open X-Embodiment (OXE), LeRobot и InternData-A1 — эти три системы определяют текущие стандарты базовых моделей роботов, а большинство отдельных наборов данных, созданных до 2023 года, уже утратили конкурентоспособность.

От разрозненности к единству: это не случайность

Можно понять, как развивается эволюция данных для роботов, посмотрев на их развитие на Hugging Face Hub: вся индустрия переживает переход от фрагментированных коллекций, ориентированных на отдельные организации, к масштабным, стандартизированным, сообществом управляемым единым формату.

Этот переход не является случайным и не навязан кем-то извне. В основе лежит необходимость масштабов и стандартизации для обучения универсальных роботов; с точки зрения экосистемы, проекты, получающие хорошую поддержку и совместимые с мейнстримовыми фреймворками, естественно привлекают разработчиков.

Три основные экосистемы демонстрируют свои преимущества

OXE: момент ImageNet в области роботов

Open X-Embodiment — объединение 34 ведущих лабораторий роботов, запущенное в конце 2023 года. Это не один набор данных, а крупная интеграция более 60 существующих наборов в единой архитектуре.

Цифры говорят сами за себя:

  • Более 1 миллиона реальных траекторий
  • 22 различных типа роботов (от промышленных манипуляторов до четырехногих и мобильных роботов)
  • Все данные преобразованы в стандартный формат RLDS на базе TensorFlow и Apache Arrow

Ключевой вывод — простые операции уже коммерциализированы. Задачи типа захвата и размещения, открывания ящиков, сборки одной рукой уже «решены» на уровне данных. Это означает, что эпоха зарабатывания на продаже базовых данных для дистанционного управления полностью завершена. В будущем коммерческая ценность — это высокоточные экспертные данные, длительные операции в реальных домашних условиях или редкие формы телесных данных (человекообразные, мягкие материалы).

LeRobot: стандартный ответ для PyTorch-сообщества

В отличие от исследовательского пути Google/TensorFlow, представленного OXE, Hugging Face быстро стал фактическим стандартом для более широкой открытой сообщества — особенно для поклонников PyTorch.

Ключевая особенность этого экосистемы — полный стек: набор данных + модели + код обучения + инструменты оценки.

Инновации в хранении данных заслуживают внимания: LeRobot Dataset v3.0 использует Apache Parquet + сжатие MP4/AV1, что увеличило эффективность хранения в 5-10 раз и значительно ускорило загрузку.

Основные наборы данных:

  • DROID 1.0.1: около 76 000 наборов данных от более чем 50 команд, специально собранных «на улице», чтобы максимально отражать реальные условия
  • Aloha серия: высокоточные данные для двойных и мобильных роботов

Практический вывод — стандарт доставки данных окончательно перешел на Parquet + MP4. Любые коммерческие поставщики, использующие ROS-пакеты или исходные видео, фактически усложняют себе жизнь и своих клиентов.

«Обратный ход» синтетических данных: InternData-A1

Третья сила — крупномасштабные высокоточные синтетические данные. InternData-A1 от Шанхайской AI-лаборатории — это последний прогресс в этом направлении:

  • Масштаб: 630 000 траекторий, что эквивалентно 7 433 часам работы робота
  • Физическое разнообразие: не только жесткие объекты, но и суставные, жидкости, частицы и деформируемые материалы (ткань, веревки и т.п.)
  • Технологический стек: передовые физические движки + случайные вариации в области + фотореалистичная визуализация + автоматизированное создание сценариев

Реальные различия: потолок синтетических данных

Но есть важный поворот — несмотря на прогресс, синтетические данные не являются универсальным решением.

Обзор за октябрь 2025 года показывает, что, несмотря на значительный прогресс в инженерии, основные различия между симуляцией и реальностью не исчезли, а лишь сузились до более узких, но всё равно критичных областей.

Главные проблемы:

  • Динамика: даже лучшие физические движки 2025 года не справляются с хаотическими явлениями, деформируемыми объектами, тонкими оболочками (например, складки ткани, память о сгибах) и накоплением ошибок численных методов. Стратегии, хорошо работающие в симуляции, могут провалиться в реальных задачах с плотным контактом.
  • Восприятие и сенсоры: хотя рендеринг синтетических изображений достигает фото-реализма, остаются системные артефакты — неправильные модели дефектов камеры, отсутствие подповерхностного рассеяния, ореолы, пыль и т.п.
  • Исполнительное управление: реальные роботы имеют скрытые контроллеры, которые со временем смещаются, требуют тонкой настройки для каждого конкретного робота.
  • Экосистемные ограничения: безопасность, задержки связи, непредсказуемость пола — всё это трудно точно моделировать.

Данные показывают, что современные базовые модели (RT-2-X, Octo и др.) при переносе с симуляции на реальные роботы показывают снижение успеха на 40-80%, особенно в задачах с деформируемыми объектами, плотным контактом и длительными сценариями.

На самом деле, реальные данные еще не устарели

Несмотря на прогресс в масштабной области случайных вариаций, residual-моделировании и гибридных методах обучения (от 90-99% синтетика и 1-10% реальных данных), в 2025 году ясно: полностью симуляционное обучение без реальных данных — ограничено задачами со средней сложностью, жесткими телами и контролируемыми условиями.

Для задач с деформируемыми объектами, жидкостями, высокоточной сборкой или неструктурированными домашними сценариями реальные данные — особенно экспертные демонстрации — остаются незаменимыми.

Что это значит для поставщиков данных? В 2026–2028 годах появятся бизнес-возможности для тех, кто сможет объединить масштабные синтетические данные с тщательно отобранными реальными траекториями, особенно в «сложных» областях (ткань, жидкости, хаотичные сцены, многошаговые рассуждения). Чисто синтетические данные в обозримом будущем не смогут обеспечить полноценное промышленное внедрение.

Послесловие: от «какой набор данных» к «методу их смешивания»

Объединение OXE, LeRobot и InternData-A1 ознаменовало окончание эпохи фрагментации данных для обучения роботов. Мы перешли в «пост-наборную» фазу, где ключевые вопросы — это не «какой набор данных выбрать», а:

  • как наиболее эффективно смешивать реальные, синтетические и дистиллированные данные?
  • как проектировать метаданные, чтобы они выжили в процессе дистилляции модели?
  • какие телесные и физические явления остаются критическими узкими местами?

В ближайшие 2-3 года победителями станут те, кто сможет производить высококачественные, стандартизированные данные и одновременно сохранять преимущества в сборе реальных данных в «сложных» областях (ткань, жидкость, хаотичные сцены, многошаговые рассуждения).

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить