Дані колеса? Повторювані зразки? Робот повинен попрощатися з «культом годин».

Колишній і нинішній дослідник робототехніки в Університеті Торонто та Технологічному інституті Джорджії, Анімеш Гарг, у статті під назвою «Moneyball for Physical AI» порівняв змагання з даними для втіленої інтелекту з моментом «Грошового м’яча» в історії бейсболу.

Він намагається кинути виклик дедалі поширенішій наративі фінансування: робототехнічним компаніям достатньо накопичити більше телеоперацій, більше реальних розгортань, більше годин роботи, щоб сформувати маховик даних. Для інвесторів це не академічна суперечка. Структура витрат, швидкість комерціалізації та моделі бар’єрів компаній у сфері втіленої інтелекту часто загортаються в чотири слова: «замкнутий цикл даних». Якщо накопичені години не дорівнюють ефективному прогресу моделі, ринок повинен по-новому оцінити активи даних цих компаній.

«Години даних» можуть бути міфом про коефіцієнт відбивання в робототехніці

Гарг використовує класичну аналогію з «Moneyball». У 2002 році команда «Окленд Атлетикс» виграла 103 гри з одним із найнижчих бюджетів у лізі. Ключовим було не купівля дорожчих гравців, а виявлення того, що ринок неправильно оцінює цінність гравців. Традиційні скаути звертають увагу на коефіцієнт відбивання, крадіжку баз і поставу, але показник, який краще пояснює здатність команди забивати очки, — це відсоток виходу на базу.

На його думку, Physical AI також може перебувати на подібному етапі. Індустрія визнає, що дані є необхідністю для створення універсальних роботизованих моделей, але легко приймає показник, який найлегше продемонструвати, за найважливіший: сумарні години телеоперації, кількість демонстраційних траєкторій, кількість розгорнутих роботів, час роботи у виробничих сценаріях.

Спосіб постачання роботизованих даних відрізняється від текстових даних. Великі мовні моделі можуть отримувати величезні обсяги низьковартісних текстів з Інтернету, кодових сховищ, книг і веб-сторінок. Вузьким місцем є більше обчислювальна потужність, очищення та ефективність навчання. Роботизовані моделі потребують даних із фізичною взаємодією, зворотним зв’язком щодо дій і змінами середовища. Кожна година ефективних даних має бути реально створена, а за нею стоять витрати на обладнання, робочу силу, місце, датчики, обробку помилок і безпеку.

Дослідник робототехніки Кен Голдберг колись описав «розрив у 100 000 років даних» між роботизованими даними та даними штучного інтелекту масштабу Інтернету. Точніше, обсяги текстових і зображувальних даних, які споживають сучасні великі візуально-мовні моделі, якщо перерахувати в години читання чи перегляду людиною, становлять приблизно 100 000 років, тоді як роботам бракує таких самих масштабів реальних даних про взаємодію. Це твердження не встановлює точний поріг для роботизованих моделей, а нагадує індустрії: дані про реальну взаємодію зі світом неможливо отримати так само дешево, як тексти з веб-сторінок.

Це також причина, чому Гарг виступає проти наративу «телеоперації як потогінної фабрики». Велика кількість ручної телеоперації справді може створити навчальні зразки з інтенсивними діями, але якщо компанія оцінює дані лише за загальною кількістю годин, кошти можуть надходити на повторювані, малоскладні та низькоінформативні зразки, а не на сценарії, які найбільше знижують частоту збоїв.

Три типи даних дають різні результати

У класифікації Гарга дані Physical AI приблизно поділяються на три категорії: дані спостережень, дані втручань і дані розгортання. Всі вони можуть бути корисними, але витрати, обмеження та щільність інформації значно відрізняються.

Перша категорія — дані спостережень, наприклад відео від першої або третьої особи. Їхня перевага — низька вартість і широке охоплення; вони допомагають моделі розуміти об'єкти, простір, результати дій і розподіл середовища. Недолік очевидний: модель може бачити, що відбувається з людиною або об'єктом, але не обов'язково знає, яку дію виконувати роботу в певному стані.

Друга категорія — дані втручань, тобто траєкторії «стан–дія», створені телеоперацією, демонстраціями та ручним втручанням. Такі дані більш безпосередні для навчання робота, оскільки містять ланцюжок «що бачить, як рухається, що відбувається після руху». Ціна полягає в тому, що кожна якісна траєкторія потребує витрат; витрати на робочу силу та обладнання не так швидко знижуються, як у випадку програмних даних.

Третя категорія — дані розгортання, тобто телеметричні дані, які генерує робот під час роботи в реальному комерційному сценарії. Це звучить найближче до комерційного маховика: робот одночасно працює, заробляє гроші та створює навчальні дані. Але тут є статистична пастка.

Сьогодні сценарії, які впроваджують першими, зазвичай є тими, де змін найменше, процес найбільш фіксований, а ризик найбільш контрольований, наприклад високоструктуровані склади, заводи або середовища з одним завданням. Обсяг таких виробничих даних може бути великим, але розподіл вузький, а повторюваність висока. Як тільки модель вивчає локальні закономірності, кожна додаткова година роботи приносить дедалі менше нової інформації.

Дані розгортання не безцінні. Справді цінними часто є не численні звичайні фрагменти «успішного виконання завдання», а збої, застрягання, аномальні об'єкти, граничні умови та рідкісні збурення. Проблема в тому, що ці довгохвостові зразки не з'являються стабільно в бажаному для компанії темпі, а витрати на їх виявлення, відбір і аналіз також вищі.

Більше даних корисне, але повторювані зразки швидко дорожчають

Гарг обережно ставиться до запозичень із закону масштабування мовних моделей: збільшення даних зазвичай призводить до зниження втрат моделі, але зі спадною віддачею. Якщо зразки повторюються, майже повторюються або походять з одного вузького розподілу, допомога від додаткових даних зменшується швидше.

У робототехніці це питання більш наочне. Коли робот вчиться брати фіксовану упаковку з фіксованої полиці, перші кілька тисяч демонстрацій, збоїв і виправлень можуть бути дуже цінними. Як тільки рухи, об'єкти, освітлення та шляхи неодноразово зібрані, нові дані більше нагадують копіювання вже вивченого локального досвіду.

У навчанні мовних моделей уже є подібний досвід: повторювані та майже повторювані дані марнують бюджет на навчання, а надмірне повторення може навіть зашкодити узагальненню. Гарг не переносить ці висновки безпосередньо на навчання роботів, а використовує їх для ілюстрації напрямку: вимірювати цінність даних потрібно не лише за кількістю, а й за різницею між зразками.

Для Physical AI різноманітність має принаймні два значення. Перше: дозволити моделі бачити більше об'єктів, просторів, матеріалів, освітлення, перешкод і способів маніпуляції. Друге: уникнути ситуації, коли модель добре працює в надто простому розподілі завдань, але виходить з ладу в дещо інших сценаріях.

Тому довгохвостові випадки невдач стають ключовими. Реальний фізичний світ не є рівномірно розподіленим; низькочастотні аномалії часто визначають комерційну придатність: об'єкт трохи зміщений, деформація упаковки, відблиск поверхні, ковзання захвату, раптове втручання людини, пропуск датчика, зміна тертя на підлозі. Якщо модель добре працює на звичайних зразках, але не справляється з цими крайніми випадками, розгортання все одно буде стримуватися невеликою кількістю невдач.

Для роботи маховика розгортання необхідно, щоб ранні сценарії були достатньо «новими»

Ця стаття справді кидає виклик поширеному комерційному шляху компаній у сфері втіленої інтелекту: спочатку розгортати роботів у вузькому сценарії, використовувати дистанційне керування людиною для забезпечення працездатності, одночасно збирати виробничі дані, а потім використовувати ці дані для навчання сильнішої моделі, щоб відкрити більше сценаріїв.

Гарг називає таку стратегію «neo-integrator». Вона намагається обійти витрати на чисте збирання даних, розміщуючи роботів у комерційне виробництво, щоб операційний дохід компенсував витрати на дані. Порівняно зі створенням спеціалізованої фабрики телеоперації, цей шлях звучить ефективніше.

Але для роботи маховика є одна передумова: дані, отримані в ранніх комерційних сценаріях, повинні бути достатньо новими та різноманітними, щоб допомогти моделі переноситися на більше завдань. Якщо сценарій розгортання є лише низькоентропійним, низьковаріаційним, сильно інженерно кастомізованим вузьким завданням, дані швидко насичуються. Компанія може отримати не маховик універсальних можливостей, а набір кастомних проектів, що потребують постійної інтеграції, обслуговування та обробки аномалій.

Це створює два види витрат. Перший: при вході в новий сценарій необхідно вкладатися в модифікацію середовища, адаптацію процесу, резервування на випадок збоїв та механізми безпеки. Другий: якщо саме розгортання ще не досягло точки беззбитковості, розширення масштабу не обов'язково є дешевим збором даних; це може бути обмін збитків на велику кількість низькоінформативних зразків.

Отже, раннє розгортання не є марним, але вимагає уважнішого аналізу: скільки нового охоплення завдань воно принесло, скільки зразків невдач і аномалій створено, чи можна ці зразки перенести в інші сценарії, і яке покращення моделі дає кожен долар, витрачений після вирахування витрат на обладнання, робочу силу, обслуговування та інтеграцію.

Наратив оцінки не може обмежуватися питанням, скільки годин накопичено

Гарг не пропонує припинити збирати дані, а змінити критерії оцінки. Сумарні години роботи, години телеоперації та кількість траєкторій можуть служити операційними показниками, але не повинні напряму прирівнюватися до прогресу моделі.

Більш інформативні питання включають: коли насичуються дані для одного завдання, скільки інженерних витрат на інтеграцію потрібно для додавання нового завдання, скільки різних сценаріїв і кластерів дій охоплюють дані, яка частка виробничих даних є справжнім дрейфом розподілу та аномальними зразками, які звичайні успішні фрагменти в потоці розгортання слід відфільтровувати, а не продовжувати подавати в модель.

Відповідно до трьох типів даних, розподіл капіталу також буде різним. Дані спостережень слід спрямовувати на низьку вартість, різноманітність і широке охоплення, щоб розширювати базові можливості. Після досягнення насичення в одному завданні для високовартісних даних телеоперації та демонстрацій бюджет слід перенаправляти на більше завдань, а не продовжувати повторювати ті самі дії. Дані розгортання слід зосередити на відборі збоїв, граничних умов і позадистрибуційних зразків, відкидаючи велику кількість звичайних записів із низькою інформаційною щільністю.

Ця система поглядів має практичний вплив на наратив оцінки Physical AI. Компанія, яка має більше роботів, довший час роботи та більшу команду телеоперації, не автоматично означає, що вона має сильніший модельний бар'єр. Складнішу здатність до відтворення може становити постійне знаходження високоцінних довгохвостових даних, визначення моменту насичення певного типу даних і покриття більшої кількості розподілів завдань з нижчими витратами.

Однак це все ще перспектива розподілу капіталу, а не остаточне рішення галузі. Чи з'являться в роботизованих моделей такі ж масштабні ефекти, як у мовних моделей, чи зможуть дані розгортання продовжувати генерувати нову інформацію в деяких високовимірних сценаріях, наскільки ефективним є перенесення між різними завданнями — на всі ці питання ще потрібно відповісти більшою кількістю емпіричних результатів.

Попередження Гарга стосується більш конкретного питання: «золотим показником» для Physical AI може бути не кількість годин даних, а кількість нових зразків, отриманих на один долар. Для компаній-роботів, які все ще розповідають історію про маховик даних, ринок зрештою дивитиметься не на те, як довго триває накопичений час роботи, а на те, скільки нової інформації було створено за цей час.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено