Мобілізація масивних людських ресурс具身 даних,京东 прагне "алхімічного" перетворення даних

SnapshotLaborer · 2026-03-18T08:06:15+00:00

16 березня京东опублікувала заяву про створення найбільшого у світі за масштабом та найповнішого за спектром застосування центру збору даних для втіленого інтелекту, що вніс значну ноту в сегмент робототехніки, який деякий час знаходився в тіні через заголовки про омарів.У певному сенсі це була рухова акція з потужними ознаками промислового Інтернету речей.Ця мобілізація охопила понад 100 тисяч внутрішніх співробітників, зовні до 500 тисяч фахівців із різних галузей, і навіть у самому місті Сучянь було залучено понад 100 тисяч громадян — така безпрецедентна тактика людських ресурсів намагалася насильницькою красою масштабної експансії пробити найсмертельніший недолік втіленого інтелекту на цьому етапі: дефіцит даних.У час, коли архітектури моделей поступово конвергують, а поріг обчислювальних ресурсів є відносно прозорим, високоякісні дані про фізичну взаємодію стали єдиним вирішальним фактором, від якого залежить, чи зможуть роботи справді увійти у сотні галузей та тисячі застосунків.За цією акцією, визначеною як «найбільша за масштабом акція збору даних в історії людства», стоїть породжена промисловістю згода: коли втілений інтелект відповідає за рух

SnapshotLaborer

2026-03-18 08:06:15

16 березня, публікація від JD.com про створення найбільшого у світі центру збору даних для тілесного штучного інтелекту з найповнішими сценаріями, стала важливою подією у робототехнічному секторі, який раніше був у тіні через увагу до крабів.

У певному сенсі, це масштабна промислова ініціатива з акцентом на індустріальний інтернет.

Ця мобілізація охоплює понад 100 000 внутрішніх співробітників і до 500 000 фахівців з різних галузей ззовні, а в місті Сучжень було залучено понад 100 000 мешканців — цей безпрецедентний людський ресурсний натовп, що використовується для масштабної демонстрації сили, намагається подолати найслабше місце тілесного штучного інтелекту — дефіцит даних.

За умов, коли архітектура моделей поступово стабілізується, а поріг обчислювальної потужності стає більш прозорим, високоякісні фізичні дані взаємодії стають єдиним ключем до того, чи зможе робот дійсно проникнути у всі сфери промисловості.

Ця масштабна операція, названа “найбільшим у історії людства збором даних”, відкриває галузевий консенсус: коли “мозок” тілесного штучного інтелекту, що відповідає за рух, стає все більш розвиненим, важливо навчити його розуміти фізичний світ за допомогою високоякісних даних — це стане головною битвою за майбутнє галузі.

Від масштабної історії JD до мікроскопічної реальності галузі, дані, згенеровані цими сотнями тисяч людей, — це чи золото, чи пісок, — ще важко сказати.

Залучені працівники

Причина, чому JD наважується і мусить ініціювати цю людську хвилю збору даних, полягає у їхній великій і високорозвиненій власній логістичній мережі.

На відміну від чисто програмних інтернет-компаній, JD — це величезний фізичний світовий майданчик, і зрілість тілесного штучного інтелекту напряму впливає на їхні витрати та ефективність у виконанні замовлень у найближчі десять років.

Ця стратегія тісно пов’язана з екосистемою робототехніки в індустріальному парку Ідзьо у Пекіні.

Там вже зібрано понад 300 компаній, що працюють у сфері робототехніки, з галузевим обсягом понад 10 мільярдів юанів, відкрито понад 40 реальних сценаріїв застосування, і цей район став ключовим центром у національній робототехнічній індустрії. Як гравець, що закорінений у Ідзьо, JD раніше оголосив про прискорення розвитку робототехніки.

Зараз JD інвестує у створення центру збору даних та інших інфраструктурних проектів, фактично доповнюючи ланцюг створення індустрії. Ідзьо забезпечує “тулуб” і тестові майданчики, а JD прагне за допомогою масових сценаріїв навчити роботів розуміти реальний світ.

Ця синергія між софтом і залізом має на меті створити замкнутий бізнес-цикл — від обертання даних до оновлення апаратного забезпечення.

Координація сотень тисяч людей — не легке завдання.

За планом, сценарії збору охоплюють логістику, промисловість, роздрібну торгівлю. На практиці це, ймовірно, базується на існуючих цифрових управлінських мережах JD. Наприклад, співробітники кур’єрської служби та складу можуть носити носимі пристрої з візуальними та силовими сенсорами для щоденної роботи.

З точки зору працівників і залучених мешканців Сучженя, ця ініціатива наповнена складністю.

Працівники неусвідомлено стають “вчителями даних” для роботів, які в майбутньому мають замінити важку людську працю. Як правильно мотивувати їх фінансово і розподіляти вигоди — питання, яке JD має вирішити.

Однак, наразі конкретних кроків ще не повідомлялося.

Офіційні заяви стверджують, що “збір усіх даних буде здійснюватися відповідно до закону та регламентів”, але реальність набагато складніша.

Щодо сценарію доставки, складські лінії — стандартні, але доставка до кожної домогосподарки і роздрібні сценарії вимагають обробки великої кількості особистих даних і зображень.

З урахуванням посилення регуляцій у сфері захисту даних, витрати на анонімізацію і очищення необроблених даних, зібраних сотнями тисяч людей, можуть бути астрономічними.

Моральна дилема Моравіка

У 1988 році робототехнік Ганс Моравік зробив висновок:

“Зробити так, щоб комп’ютер досяг рівня дорослої людини у тестах інтелекту або шахах — легко, але створити його з такими ж відчуттями і рухами, як у однорічної дитини, — надзвичайно важко і майже неможливо.”

Сьогодні, у контексті тілесного штучного інтелекту, ця дилема зосереджена навколо дефіциту даних у галузі.

Великі моделі успішно базуються на тридцятирічному накопиченні трильйонів високоякісних текстових даних з інтернету. Але фізичний світ не має такого “інтернету”. Щоб масштабуватися у реальному світі, тілесний штучний інтелект стикається з величезною “стінкою даних”.

Цього разу JD націлений саме на цю проблему і виклики збору даних.

По-перше, потрібно подолати обмеження симуляцій.

На сьогодні, основні шляхи збору даних у галузі сильно розділилися і стикаються з власними бар’єрами.

Більшість стартапів покладаються на симуляційне середовище, наприклад, NVIDIA Isaac Sim або MuJoCo, що дозволяє роботам проходити мільйони циклів навчання у віртуальній реальності. Це дешевий і швидкий спосіб, що не ризикує пошкодженням обладнання.

Проте, з досвідом все більше фахівців визнають обмеження “Sim-to-Real”.

Фізична реальність складніша за візуальні ефекти: вона включає тонкі фізичні контакти, наприклад, гнучкість кабелів, нежорстке розтягування одягу, мікроскопічні зміни тертя при закручуванні гайок, а також електромагнітний шум сенсорів.

Обчислювальні можливості сучасних фізичних движків не здатні ідеально моделювати ці високовимірні нелінійні фізичні закони. Це призводить до ситуацій, коли модель, що працює у симуляції, при перенесенні у реальний світ починає “зависати” або демонструвати неправильні рухи.

Якщо симуляція має прогалини, повертаємося до реальності.

Відомі приклади — Mobile ALOHA зі Стенфордського університету, а також сучасні компанії, такі як Figure AI, Юйшуй і Зіньюань, активно використовують дистанційне управління — тобто, люди в костюмах з датчиками або VR-гарнітурах керують роботами, записуючи перший погляд, кути суглобів і сили.

Це наразі найякісніший спосіб збору даних, але він стикається з другою великою проблемою — економічною ефективністю.

Вартість однієї високоякісної складної взаємодії може сягати сотень доларів, а ймовірність невдачі — дуже висока.

Такий ручний підхід не здатен забезпечити масштабування до сотень мільярдів параметрів, необхідних для універсалізації тілесного штучного інтелекту.

Щоб знизити бар’єри, гіганти, наприклад Google, ініціювали відкриті датасети, такі як Open X-Embodiment, щоб зібрати глобальні дані для всієї галузі. В Україні також з’явилися проєкти з відкритими наборами даних у мільйонних масштабах.

Але тут прихована ще одна проблема — надзвичайно фрагментована структура робототехніки.
Гібридні, колісні, двоногі роботи, а також різні виробники — мають різні кількості ступенів свободи, типи моторів, розташування сенсорів і центри ваги.

Дані, зібрані на одних моделях, не можна просто перенести на інші.

Через цю “міжтілову” проблему, більшість відкритих датасетів залишаються ізольованими “островами”, що ускладнює масштабування.

Можливо, саме через ці три виклики, бізнес-логіка у сфері тілесного штучного інтелекту вже зазнала суттєвих змін: хто має реальні сценарії застосування, той і володіє довгостроковою перевагою у зборі дешевих і високоякісних даних.

Це пояснює, чому Tesla і JD обрали зовсім інші стратегії.

Tesla, завдяки своїм гігантським фабрикам, дозволяє Optimus безпосередньо тестувати у реальних лініях сортування батарей; а JD, використовуючи свою широку логістичну мережу, сотні тисяч працівників і роздрібних точок, створює напівавтоматизовану лінію збору даних.

Ця стратегія перетворює логістичний бар’єр у бар’єр для штучного інтелекту.

На противагу, багато стартапів без власних сценаріїв змушені змінюватися — або продавати дешеве обладнання університетам і дослідницьким центрам, щоб отримати доступ до даних, або орендувати виробничі площі і наймати спеціалістів для створення власних датасетів.

Можна сказати, що JD відкрив нову еру у сфері тілесного штучного інтелекту, перетворивши її з алгоритмічної у ресурсну боротьбу — змагання за гроші, сценарії і людські ресурси.

У часи дефіциту даних, переваги у алгоритмах стають менш очевидними, а гіганти, що володіють реальним фізичним світом, тихо закривають собі шлях до AGI.

Вищий рівень — якісні дані

Зі заявою JD про намір зібрати понад 10 мільйонів годин реальних сценаріїв за два роки, реакція галузі не була одностайною — більше скептиків, ніж ентузіастів.

У контексті тілесного штучного інтелекту, якість і модальність даних важливіші за їхню тривалість.

Галузеві експерти вказують на головну проблему: не вистачає перших особистих відео з людським поглядом, а потрібні “стант-дій-спід” — дані з точним фізичним зворотним зв’язком.

Наприклад, мешканці Сучженя з камерами у магазинах або кур’єри, що фіксують процес доставки, генерують масивні дані для тренування моделей світу — щоб зрозуміти, що таке двері або яблуко; але для навчання контролю — щоб визначити, з якою силою потрібно стискати яблуко, щоб не пошкодити — ці візуальні дані майже безцінні.

Фахівець з робототехніки у коментарі для Wall Street Journal зазначив, що “роботам потрібні цінні дані, особливо реальні дані з машин”. На його думку, JD — це переважно бізнес із аутсорсингу процесів і надання людських ресурсів.

Людські руки при фізичному захопленні мають складний тактильний і силовий зворотний зв’язок, а високовимірні знання, що з цим пов’язані, — недоступні для звичайних носимих пристроїв. Якщо сотні тисяч людей просто знімають відео, то втрата цінних даних для перетворення їх у керовані роботами дії буде дуже високою.

Інший керівник провідної української робототехнічної компанії прямо сказав, що головна проблема — відсутність єдиного стандарту для датасетів.

Наприклад, у кожної компанії різна кількість ступенів свободи, розташування сенсорів, типи приводів. Як перенести сотні тисяч годин людських рухів на різні моделі роботів?

Без єдиного стандарту, ці дані залишаться приватною власністю JD і не стануть основою для розвитку галузі.

Саме тому JD у перший рік особливо наголосила на зборі “100 тисяч годин даних про робототехнічні тіла”. Основний шлях — це використання людських відео для попереднього навчання і подальшого тонкого налаштування моделей, а також самонавчання через підсилювальне навчання.

Загалом, запуск масштабного центру збору даних — це перший крок до того, щоб українські компанії і дослідники почали системно вирішувати проблему нестачі даних у цій галузі.

Об’єднання реальних сценаріїв і людських ресурсів відкриває нові можливості для накопичення даних.

Але для досягнення “розумної” поведінки роботів, просто нарощування обсягів даних недостатньо.

Як забезпечити високу якість і високий рівень розмірності даних?
Як створити єдині стандарти?
Як вирішити питання конфіденційності та відповідності регуляціям у масштабних зборах?
Ці питання стануть ключовими для компаній і галузі на шляху до комерціалізації.

Ризики та застереження

Ринок має ризики, інвестиції — обережні. Цей матеріал не є інвестиційною рекомендацією і не враховує індивідуальні цілі, фінансовий стан або потреби користувачів. Користувачі мають самостійно оцінювати відповідність рекомендацій своїй ситуації.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.