Наступила ера «триногого панування» робототехнічних даних, фрагментація стала минулим

StakeTillRetire · 2026-01-19T09:40:48+00:00

Епоха фрагментації даних для машинного навчання закінчилася, тепер сформовано три основні екосистеми на базі OXE, LeRobot і InternData-A1. Зміни роблять акцент на масштабі та стандартизації, але високоякісні експертні дані залишаються незамінними у практичних застосуваннях. Майбутня конкуренція зосередиться на тому, як ефективно поєднувати реальні та синтетичні дані, щоб забезпечити продуктивність у складних завданнях.

StakeTillRetire

2026-01-19 09:40:48

Генерація анотацій у процесі

Ручне навчання даних у сфері робототехніки завершилося.

Колись той час, коли набір даних був розкиданий повсюдно і кожен працював самостійно, минув. До середини 2025 року вся екосистема відкритого коду для роботів сформувалася у чіткий «триострівний» розподіл — Open X-Embodiment (OXE), LeRobot і InternData-A1 визначають сучасний еталон базових моделей робототехніки, більшість окремих наборів даних до 2023 року вже втратили конкурентоспроможність.

Від розпорошеності до єдності: це не випадковість

З еволюції наборів даних для роботів на Hugging Face Hub видно, що галузь переживає перехід від спеціалізованих фрагментованих колекцій для окремих інституцій до масштабної, стандартизованої, спільнотної єдиної моделі.

Цей перехід не є випадковим і не нав’язаний кимось силою. В основі лежить те, що тренування універсальних робототехнічних стратегій вимагає масштабів і стандартизації; з точки зору екосистеми, проекти, які отримують хорошу підтримку і відповідають основним фреймворкам, природно приваблюють розробників.

Три великі екосистеми демонструють свої можливості

OXE: момент ImageNet у сфері робототехніки

Open X-Embodiment — це консорціум, створений 34 провідними лабораторіями робототехніки наприкінці 2023 року. Це не один набір даних, а велика інтеграція понад 60 існуючих наборів у єдиній архітектурі.

Цифри говорять самі за себе:

понад 1 мільйон реальних траєкторій
22 різні типи роботів (від промислових маніпуляторів до чотириногих і мобільних роботів)
всі дані перетворені у стандартний формат RLDS на базі TensorFlow і Apache Arrow

Ключовий висновок — прості операції вже комерціалізовані. Відловлювання і розміщення, відкривання ящиків, монтаж однією рукою — ці базові завдання вже «вирішені» на рівні даних. Це означає, що ера заробітку на продажу базових даних для віддаленого управління закінчилася. Майбутня цінність — у високоточних експертних даних, довготривалих операціях у реальних домашніх умовах або у рідкісних формах з тілесною реалізацією (людська форма, м’які матеріали).

LeRobot: стандартна відповідь для екосистеми PyTorch

На відміну від дослідницького напряму Google/TensorFlow, представлений OXE, Hugging Face швидко зробив LeRobot фактичним стандартом для більш широкої спільноти відкритого коду — особливо для прихильників PyTorch.

Ключова перевага цієї екосистеми — повний стек: набір даних + модель + код тренування + інструменти оцінки.

Варті уваги інновації у зберіганні: LeRobot Dataset v3.0 використовує Apache Parquet + стиснення MP4/AV1, що підвищило ефективність зберігання у 5-10 разів і значно прискорило завантаження.

Основні набори даних:

DROID 1.0.1: понад 76 000 наборів даних від 50+ команд, зібраних у «польових» умовах для максимальної репрезентації реальних змін
Aloha серія: високоточні дані для двох рук і мобільних дворуків

Реальне зауваження: стандарти доставки даних вже назавжди перейшли на Parquet + MP4. Бізнес-постачальники, що досі використовують ROS-пакети або сирі відео, фактично ускладнюють життя клієнтам і додають непотрібних технічних труднощів.

«Реванш» синтетичних даних: InternData-A1

Третя сила — масштабні високодетальні синтетичні дані. InternData-A1 від Шанхайської AI-лабораторії — це найновіший прорив у цьому напрямку:

Масштаб: 630 000 траєкторій, що відповідає 7 433 годинам роботи роботів
Фізична різноманітність: не лише тверді об’єкти, а й суглобні, рідини, частинки і деформовані матеріали (тканини, мотузки тощо)
Технології: сучасний фізичний движок + випадковізація домену + фотореалістична рендеринг + автоматичне створення курсів

Реальні відставання: межі синтетичних даних

Але тут є ключовий поворот — хоча синтетичні дані прогресують, вони не є універсальними.

У дослідженні, проведеному у жовтні 2025 року, зазначається, що, незважаючи на значний прогрес у інженерії, основні відмінності між симуляцією і реальністю не зникли, а лише звузилися до більш вузьких, але все ще критичних областей.

Основні проблеми:

Динамічний розрив: навіть найкращі фізичні движки 2025 року не здатні коректно моделювати хаотичні явища, деформовані об’єкти, тонкі оболонки (згинання тканин, зморшки) і накопичення чисельних похибок. Стратегії, що працюють у симуляції, можуть провалитися у реальних задачах з щільним контактом.
Розрив у сприйнятті: хоча рендеринг синтетичних сцен досягає фото-реалістичних рівнів, все ще є систематичні артефакти — неправильні моделі дефектів камер, відсутність підповерхневого розсіювання, ореоли, пилюка тощо.
Розрив у керуванні: реальні роботи мають приховані контролери, що з часом зсуваються, і потребують тонкої підгонки для кожного окремого пристрою.
Екосистемні розриви: безпечні контролери, затримки зв’язку, нерозроблені моделі підлоги — все це важко точно відтворити у симуляції.

Дані показують, що сучасні базові моделі (RT-2-X, Octo тощо) при перенесенні з симуляції на реальних роботах мають зниження успішності на 40-80%, особливо у задачах з деформованими об’єктами, щільним контактом і довготривалими сценаріями.

Насправді, реальні дані ще не вийшли з моди

Хоча масштабна випадкова генерація, залишкова модель і гібридне навчання (90-99% синтетичних + 1-10% реальних даних) дають прогрес, у 2025 році залишається факт: нульовий перехід з симуляції на реальність обмежений середньо складними задачами з твердістю тіл і контрольованими умовами.

Для застосувань з деформованими об’єктами, рідинами, високоточним збиранням або неструктурованими домашніми операціями реальні дані — особливо високоякісні демонстраційні — залишаються незамінними.

Що це означає для постачальників даних? Бізнес-можливості у 2026–2028 роках — у гібридних підходах, що поєднують масштабну синтетичну генерацію і ретельно відібрані реальні траєкторії, особливо у «складних» сферах (тканини, рідини, хаотичні сцени, багатоступеневе мислення). Чисто синтетичні дані у найближчому майбутньому не зможуть забезпечити виробничі рішення.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.