Ранний бум данных для обучения роботов завершился.
Когда-то эпоха, когда наборы данных летали повсюду и развивались независимо, ушла в прошлое. К середине 2025 года вся экосистема открытых роботов сформировала ясную «триумвиратную» структуру — Open X-Embodiment (OXE), LeRobot и InternData-A1 — эти три системы определяют текущие стандарты базовых моделей роботов, а большинство отдельных наборов данных, созданных до 2023 года, уже утратили конкурентоспособность.
От разрозненности к единству: это не случайность
Можно понять, как развивается эволюция данных для роботов, посмотрев на их развитие на Hugging Face Hub: вся индустрия переживает переход от фрагментированных коллекций, ориентированных на отдельные организации, к масштабным, стандартизированным, сообществом управляемым единым формату.
Этот переход не является случайным и не навязан кем-то извне. В основе лежит необходимость масштабов и стандартизации для обучения универсальных роботов; с точки зрения экосистемы, проекты, получающие хорошую поддержку и совместимые с мейнстримовыми фреймворками, естественно привлекают разработчиков.
Три основные экосистемы демонстрируют свои преимущества
OXE: момент ImageNet в области роботов
Open X-Embodiment — объединение 34 ведущих лабораторий роботов, запущенное в конце 2023 года. Это не один набор данных, а крупная интеграция более 60 существующих наборов в единой архитектуре.
Цифры говорят сами за себя:
Более 1 миллиона реальных траекторий
22 различных типа роботов (от промышленных манипуляторов до четырехногих и мобильных роботов)
Все данные преобразованы в стандартный формат RLDS на базе TensorFlow и Apache Arrow
Ключевой вывод — простые операции уже коммерциализированы. Задачи типа захвата и размещения, открывания ящиков, сборки одной рукой уже «решены» на уровне данных. Это означает, что эпоха зарабатывания на продаже базовых данных для дистанционного управления полностью завершена. В будущем коммерческая ценность — это высокоточные экспертные данные, длительные операции в реальных домашних условиях или редкие формы телесных данных (человекообразные, мягкие материалы).
LeRobot: стандартный ответ для PyTorch-сообщества
В отличие от исследовательского пути Google/TensorFlow, представленного OXE, Hugging Face быстро стал фактическим стандартом для более широкой открытой сообщества — особенно для поклонников PyTorch.
Ключевая особенность этого экосистемы — полный стек: набор данных + модели + код обучения + инструменты оценки.
Инновации в хранении данных заслуживают внимания: LeRobot Dataset v3.0 использует Apache Parquet + сжатие MP4/AV1, что увеличило эффективность хранения в 5-10 раз и значительно ускорило загрузку.
Основные наборы данных:
DROID 1.0.1: около 76 000 наборов данных от более чем 50 команд, специально собранных «на улице», чтобы максимально отражать реальные условия
Aloha серия: высокоточные данные для двойных и мобильных роботов
Практический вывод — стандарт доставки данных окончательно перешел на Parquet + MP4. Любые коммерческие поставщики, использующие ROS-пакеты или исходные видео, фактически усложняют себе жизнь и своих клиентов.
Третья сила — крупномасштабные высокоточные синтетические данные. InternData-A1 от Шанхайской AI-лаборатории — это последний прогресс в этом направлении:
Масштаб: 630 000 траекторий, что эквивалентно 7 433 часам работы робота
Физическое разнообразие: не только жесткие объекты, но и суставные, жидкости, частицы и деформируемые материалы (ткань, веревки и т.п.)
Технологический стек: передовые физические движки + случайные вариации в области + фотореалистичная визуализация + автоматизированное создание сценариев
Реальные различия: потолок синтетических данных
Но есть важный поворот — несмотря на прогресс, синтетические данные не являются универсальным решением.
Обзор за октябрь 2025 года показывает, что, несмотря на значительный прогресс в инженерии, основные различия между симуляцией и реальностью не исчезли, а лишь сузились до более узких, но всё равно критичных областей.
Главные проблемы:
Динамика: даже лучшие физические движки 2025 года не справляются с хаотическими явлениями, деформируемыми объектами, тонкими оболочками (например, складки ткани, память о сгибах) и накоплением ошибок численных методов. Стратегии, хорошо работающие в симуляции, могут провалиться в реальных задачах с плотным контактом.
Восприятие и сенсоры: хотя рендеринг синтетических изображений достигает фото-реализма, остаются системные артефакты — неправильные модели дефектов камеры, отсутствие подповерхностного рассеяния, ореолы, пыль и т.п.
Исполнительное управление: реальные роботы имеют скрытые контроллеры, которые со временем смещаются, требуют тонкой настройки для каждого конкретного робота.
Экосистемные ограничения: безопасность, задержки связи, непредсказуемость пола — всё это трудно точно моделировать.
Данные показывают, что современные базовые модели (RT-2-X, Octo и др.) при переносе с симуляции на реальные роботы показывают снижение успеха на 40-80%, особенно в задачах с деформируемыми объектами, плотным контактом и длительными сценариями.
На самом деле, реальные данные еще не устарели
Несмотря на прогресс в масштабной области случайных вариаций, residual-моделировании и гибридных методах обучения (от 90-99% синтетика и 1-10% реальных данных), в 2025 году ясно: полностью симуляционное обучение без реальных данных — ограничено задачами со средней сложностью, жесткими телами и контролируемыми условиями.
Для задач с деформируемыми объектами, жидкостями, высокоточной сборкой или неструктурированными домашними сценариями реальные данные — особенно экспертные демонстрации — остаются незаменимыми.
Что это значит для поставщиков данных? В 2026–2028 годах появятся бизнес-возможности для тех, кто сможет объединить масштабные синтетические данные с тщательно отобранными реальными траекториями, особенно в «сложных» областях (ткань, жидкости, хаотичные сцены, многошаговые рассуждения). Чисто синтетические данные в обозримом будущем не смогут обеспечить полноценное промышленное внедрение.
Послесловие: от «какой набор данных» к «методу их смешивания»
Объединение OXE, LeRobot и InternData-A1 ознаменовало окончание эпохи фрагментации данных для обучения роботов. Мы перешли в «пост-наборную» фазу, где ключевые вопросы — это не «какой набор данных выбрать», а:
как наиболее эффективно смешивать реальные, синтетические и дистиллированные данные?
как проектировать метаданные, чтобы они выжили в процессе дистилляции модели?
какие телесные и физические явления остаются критическими узкими местами?
В ближайшие 2-3 года победителями станут те, кто сможет производить высококачественные, стандартизированные данные и одновременно сохранять преимущества в сборе реальных данных в «сложных» областях (ткань, жидкость, хаотичные сцены, многошаговые рассуждения).
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Эра «три ноги» в данных роботов наступила, фрагментация стала прошлым
Ранний бум данных для обучения роботов завершился.
Когда-то эпоха, когда наборы данных летали повсюду и развивались независимо, ушла в прошлое. К середине 2025 года вся экосистема открытых роботов сформировала ясную «триумвиратную» структуру — Open X-Embodiment (OXE), LeRobot и InternData-A1 — эти три системы определяют текущие стандарты базовых моделей роботов, а большинство отдельных наборов данных, созданных до 2023 года, уже утратили конкурентоспособность.
От разрозненности к единству: это не случайность
Можно понять, как развивается эволюция данных для роботов, посмотрев на их развитие на Hugging Face Hub: вся индустрия переживает переход от фрагментированных коллекций, ориентированных на отдельные организации, к масштабным, стандартизированным, сообществом управляемым единым формату.
Этот переход не является случайным и не навязан кем-то извне. В основе лежит необходимость масштабов и стандартизации для обучения универсальных роботов; с точки зрения экосистемы, проекты, получающие хорошую поддержку и совместимые с мейнстримовыми фреймворками, естественно привлекают разработчиков.
Три основные экосистемы демонстрируют свои преимущества
OXE: момент ImageNet в области роботов
Open X-Embodiment — объединение 34 ведущих лабораторий роботов, запущенное в конце 2023 года. Это не один набор данных, а крупная интеграция более 60 существующих наборов в единой архитектуре.
Цифры говорят сами за себя:
Ключевой вывод — простые операции уже коммерциализированы. Задачи типа захвата и размещения, открывания ящиков, сборки одной рукой уже «решены» на уровне данных. Это означает, что эпоха зарабатывания на продаже базовых данных для дистанционного управления полностью завершена. В будущем коммерческая ценность — это высокоточные экспертные данные, длительные операции в реальных домашних условиях или редкие формы телесных данных (человекообразные, мягкие материалы).
LeRobot: стандартный ответ для PyTorch-сообщества
В отличие от исследовательского пути Google/TensorFlow, представленного OXE, Hugging Face быстро стал фактическим стандартом для более широкой открытой сообщества — особенно для поклонников PyTorch.
Ключевая особенность этого экосистемы — полный стек: набор данных + модели + код обучения + инструменты оценки.
Инновации в хранении данных заслуживают внимания: LeRobot Dataset v3.0 использует Apache Parquet + сжатие MP4/AV1, что увеличило эффективность хранения в 5-10 раз и значительно ускорило загрузку.
Основные наборы данных:
Практический вывод — стандарт доставки данных окончательно перешел на Parquet + MP4. Любые коммерческие поставщики, использующие ROS-пакеты или исходные видео, фактически усложняют себе жизнь и своих клиентов.
«Обратный ход» синтетических данных: InternData-A1
Третья сила — крупномасштабные высокоточные синтетические данные. InternData-A1 от Шанхайской AI-лаборатории — это последний прогресс в этом направлении:
Реальные различия: потолок синтетических данных
Но есть важный поворот — несмотря на прогресс, синтетические данные не являются универсальным решением.
Обзор за октябрь 2025 года показывает, что, несмотря на значительный прогресс в инженерии, основные различия между симуляцией и реальностью не исчезли, а лишь сузились до более узких, но всё равно критичных областей.
Главные проблемы:
Данные показывают, что современные базовые модели (RT-2-X, Octo и др.) при переносе с симуляции на реальные роботы показывают снижение успеха на 40-80%, особенно в задачах с деформируемыми объектами, плотным контактом и длительными сценариями.
На самом деле, реальные данные еще не устарели
Несмотря на прогресс в масштабной области случайных вариаций, residual-моделировании и гибридных методах обучения (от 90-99% синтетика и 1-10% реальных данных), в 2025 году ясно: полностью симуляционное обучение без реальных данных — ограничено задачами со средней сложностью, жесткими телами и контролируемыми условиями.
Для задач с деформируемыми объектами, жидкостями, высокоточной сборкой или неструктурированными домашними сценариями реальные данные — особенно экспертные демонстрации — остаются незаменимыми.
Что это значит для поставщиков данных? В 2026–2028 годах появятся бизнес-возможности для тех, кто сможет объединить масштабные синтетические данные с тщательно отобранными реальными траекториями, особенно в «сложных» областях (ткань, жидкости, хаотичные сцены, многошаговые рассуждения). Чисто синтетические данные в обозримом будущем не смогут обеспечить полноценное промышленное внедрение.
Послесловие: от «какой набор данных» к «методу их смешивания»
Объединение OXE, LeRobot и InternData-A1 ознаменовало окончание эпохи фрагментации данных для обучения роботов. Мы перешли в «пост-наборную» фазу, где ключевые вопросы — это не «какой набор данных выбрать», а:
В ближайшие 2-3 года победителями станут те, кто сможет производить высококачественные, стандартизированные данные и одновременно сохранять преимущества в сборе реальных данных в «сложных» областях (ткань, жидкость, хаотичные сцены, многошаговые рассуждения).