Дані колесо чи повторні зразки? Physical AI має попрощатися з «культом годин»

Question

> TL;DR > · Робототехнік Анімеш Гарг ставить під сумнів використання віддалених годин роботи як показника здатностей моделі. > · Вартість збору даних для роботів висока, дані розгортання часто походять з вузьких сценаріїв, а повторювані зразки швидко дорожчають. > · Більш цінними можуть бути довгі хвости невдач, охоплення завдань та нові зразки, а не загальний час роботи. > > Колишній та нинішній професор Університету Торонто, а зараз Технологічного інституту Джорджії, робототехнік Анімеш Гарг у статті під назвою «Moneyball for Physical AI» порівнює змагання даних у сфері фізичного AI з моментом «грошового м'яча» в історії бейсболу. Він хоче кинути виклик дедалі поширенішій наративі фінансування: робототехнічні компанії, мовляв, просто додаючи більше віддаленого керування, більше реальних розгортань і більше годин роботи, можуть створити данний маховик. Для інвесторів це не академічні дебати. Витратна структура, швидкість комерціалізації та модельні бар'єри компаній фізичного AI часто упаковані в ці чотири слова: «замкнений цикл даних». Якщо накопичені години не дорівнюють ефективному прогресу моделі, ринок повинен переоцінити дані активи цих компаній. «Години даних» можуть бути забобоном рівня відбивання в робототехніці===================== Гарг використовує класичну аналогію з «Moneyball». У 2002 році «Окленд Атлетикс» виграли 103 гри з одним із найнижчих бюджетів у лізі. Ключ був не в тому, щоб купити дорожчих гравців, а в тому, щоб виявити, що ринок неправильно оцінює гравців. Традиційні скаути звертали увагу на відбивання, крадіжки баз та поставу, але показником, який краще пояснював здатність команди набирати очки, був відсоток виходу на базу. На його думку, Physical AI може бути на подібному етапі. Індустрія визнає, що дані є необхідністю для універсальної робототехнічної моделі, але схильна вважати показники, які найлегше продемонструвати, найважливішими: накопичені години віддаленого керування, кількість траєкторій демонстрації, кількість розгорнутих роботів, тривалість роботи на виробничих майданчиках. Спосіб постачання даних для роботів і текстових даних відрізняється. Великі мовні моделі можуть отримувати величезні об'єми низьковартісного тексту з Інтернету, кодових сховищ, книг і веб-сторінок, вузьке місце більше в обчислювальній потужності, очищенні та ефективності навчання. Робототехнічні моделі потребують даних, які включають фізичну взаємодію, зворотний зв'язок про дії та зміни середовища; кожна ефективна година даних має бути справді створена, що тягне за собою витрати на обладнання, робочу силу, майданчик, сенсори, обробку невдач та безпеку. Робототехнік Кен Голдберг колись описав розрив між робототехнікою та даними AI інтернет-масштабу як «100 000-річний розрив даних». Точніше кажучи, текстові та зображувальні дані, спожиті сучасними великими візуально-мовними моделями, якщо перерахувати в людино-години читання або перегляду, еквівалентні приблизно 100 000 років, тоді як роботам бракує реальних даних взаємодії такого ж масштабу. Це твердження не встановлює точний поріг для робототехнічних моделей, а нагадує індустрії: дані реальної взаємодії не можна дешево збирати, як текст з веб-сторінок. Саме тому Гарг виступає проти наративи «віддаленого керування як потогінної фабрики». Велика кількість ручного віддаленого керування справді може дати щільні по діях навчальні зразки, але якщо компанія оцінює дані лише за загальною кількістю годин, кошти можуть піти на повторювані, низькоскладні та низькоінформативні зразки, а не на сценарії, які найбільше знижують відсоток невдач. Три типи даних дають різні речі============= У класифікації Гарга дані Physical AI можна розділити на три основні категорії: дані спостереження, дані втручання та дані розгортання. Усі вони можуть бути корисними, але вартість, обмеження та інформаційна щільність значно відрізняються. Перший тип – дані спостереження, наприклад, відео від першої або третьої особи. Їхня перевага – низька вартість і широке охоплення, що допомагає моделі зрозуміти об'єкти, простір, результати дій та розподіл середовища. Недолік очевидний: модель бачить, що сталося з людиною або об'єктом, але не обов'язково знає, яку дію робот має виконати в певному стані. Другий тип – дані втручання, тобто траєкторії стан-дія, створені віддаленим керуванням, демонстрацією та ручним втручанням. Такі дані більш безпосередні для навчання робота, оскільки містять ланцюжок «що бачить, як рухається, що відбувається після руху». Ціна – кожна якісна траєкторія вимагає грошей, а витрати на робочу силу та обладнання важко швидко зменшити, як у випадку з програмними даними. Третій тип – дані розгортання, тобто телеметричні дані, згенеровані під час роботи робота в реальних комерційних сценаріях. Це звучить найближче до комерційного маховика: робот одночасно працює, заробляє гроші та генерує навчальні дані. Але тут є статистична пастка. Найбільш ранні сценарії впровадження роботів зазвичай є також сценаріями з найменшою варіативністю, найбільш фіксованими процесами та найбільш керованим ризиком, наприклад, високоструктуровані склади, фабрики або середовища з одним завданням. Обсяг таких виробничих даних може бути великим, але розподіл вузький, а повторюваність висока. Коли модель вивчила локальну закономірність, кожна додаткова година роботи приносить менше нової інформації. Дані розгортання не є безцінними. Справді цінними часто є не великі обсяги «успішних виконань завдань», а невдачі, застрягання, аномальні об'єкти, граничні умови та рідкісні збурення. Проблема в тому, що ці довгохвостові зразки не з'являються стабільно за бажаним графіком компанії, а витрати на їх виявлення, фільтрацію та аналіз вищі. Більше даних корисні, але повторювані зразки швидко дорожчають================= Гарг обережно ставиться до запозичення з закону масштабування мовних моделей: збільшення даних зазвичай призводить до зменшення втрат моделі, але зі спадною віддачею. Якщо зразки повторюються, майже повторюються або походять з одного вузького розподілу, додаткові дані допомагають ще швидше менше. У робототехніці це більш інтуїтивно. Робот, який вчиться хапати стандартну коробку з фіксованої полиці, може отримати величезну користь від перших кількох тисяч демонстрацій, невдач і виправлень. Коли дії, об'єкти, освітлення та шляхи неодноразово зібрані, нові дані більше схожі на копіювання вже вивчених локальних досвідів. У навчанні мовних моделей вже є подібний досвід: повторювані та майже повторювані дані витрачають бюджет навчання, а надмірне повторення може навіть погіршити узагальнення. Гарг не застосовує ці висновки безпосередньо до навчання роботів, а використовує їх, щоб вказати напрямок: вимірювання цінності даних не може обмежуватися кількістю, потрібно дивитися на те, наскільки зразки відрізняються один від одного. Для Physical AI різноманітність має принаймні два значення. Перше – дати моделі побачити більше об'єктів, просторів, матеріалів, освітлення, перешкод і способів взаємодії. Друге – уникнути ситуації, коли модель добре працює в надто простому розподілі завдань, але ламається при найменшій зміні сценарію. Тому довгохвостові випадки невдач стають критичними. Фізичний реальний світ не має рівномірного розподілу; низькочастотні аномалії часто визначають комерційну придатність: об'єкт трохи зміщений, упаковка деформована, поверхня відблискує, захват ковзає, людина раптово втручається, сенсор пропускає, змінюється тертя підлоги. Навіть якщо модель добре працює на звичайних зразках, якщо вона не справляється з цими хвостовими подіями, розгортання все одно буде стримуватися кількома невдачами. Маховик розгортання працює, лише якщо ранні сценарії достатньо «нові»================== Стаття справді кидає виклик поширеному шляху комерціалізації компаній фізичного AI: спочатку розгорнути роботів у вузькому сценарії, використовувати дистанційне керування людиною для забезпечення працездатності, одночасно збирати виробничі дані, а потім використовувати ці дані для навчання сильнішої моделі, відкриваючи більше сценаріїв. Гарг називає такий підхід «neo-integrator». Він намагається обійти чисті витрати на збір даних, поміщаючи роботів у комерційне виробництво, щоб операційний дохід компенсував витрати на дані. Порівняно зі створенням спеціалізованого заводу віддаленого керування, цей шлях звучить ефективніше. Але маховик працює лише за однієї умови: дані, згенеровані в ранніх комерційних сценаріях, повинні бути досить новими, досить різноманітними, щоб допомогти моделі переноситися на більше завдань. Якщо сценарій розгортання є низьковаріативним, низькоентропійним, сильно інженерно налаштованим вузьким завданням, дані швидко насичуються. Компанія отримує не маховик загальних здібностей, а набір індивідуальних проектів, які потребують постійної інтеграції, обслуговування та обробки аномалій. Це призводить до двох типів витрат. По-перше, кожен новий сценарій вимагає вкладень у модифікацію середовища, адаптацію процесу, резервування на випадок невдач та механізми безпеки. По-друге, якщо розгортання ще не досягло беззбитковості, масштабування не обов'язково означає дешевий збір даних; це може бути збиткове накопичення великої кількості низькоінформативних зразків. Тому раннє розгортання не є марним, але потребує більш детального розгляду: скільки нових завдань воно покриває, скільки невдач та аномальних зразків генерує, чи можна ці зразки перенести на інші сценарії, і після вирахування витрат на обладнання, робочу силу, обслуговування та інтеграцію, скільки покращення моделі приносить кожен долар. Наратива оцінки не може обмежуватися питанням, скільки годин накопичено============== Гарг не пропонує припинити збір даних, а змінити критерії оцінки. Накопичені години роботи, години віддаленого керування та кількість траєкторій можуть бути операційними показниками, але не повинні безпосередньо прирівнюватися до прогресу моделі. Більш показовими питаннями є: коли дані для окремого завдання насичуються, скільки інженерних витрат на інтеграцію потрібно для додавання нового завдання, скільки різних сценаріїв і кластерів дій покривають дані, скільки справжніх зсувів розподілу та аномальних зразків містяться у виробничих даних, і скільки звичайних успішних фрагментів у потоці розгортання слід відфільтрувати, а не продовжувати годувати модель. Відповідно до трьох типів даних, розподіл капіталу буде різним. Дані спостереження слід насамперед орієнтувати на низьку вартість, різноманітність і широке охоплення для розширення базових можливостей. Дані віддаленого керування та демонстрації з високою вартістю після досягнення насичення окремого завдання слід спрямовувати на нові завдання, а не продовжувати повторювати ті самі дії. Дані розгортання слід зосередити на відборі невдач, граничних умов та вибірок поза розподілом, відкидаючи більшість низькоінформативних звичайних записів. Ця точка зору має практичний вплив на наративу оцінки Physical AI. Компанія з більшою кількістю роботів, довшим часом роботи, більшою командою віддаленого керування не автоматично означає сильніший модельний бар'єр. Більш важкою для копіювання здібністю може бути постійне знаходження високоцінних довгохвостових даних, визначення моменту насичення певного типу даних та покриття більшої кількості розподілів завдань з меншими витратами. Однак це все ще перспектива розподілу капіталу, а не остаточний вердикт індустрії. Чи з'являться в робототехнічних моделей аналогічні до мовних моделей ефекти масштабу, чи зможуть дані розгортання продовжувати генерувати нову інформацію в деяких високорозмірних сценаріях, наскільки ефективним є перенесення між різними завданнями – все це потребує більше емпіричних результатів. Попередження Гарга зводиться до більш конкретного питання: «золотим показником» Physical AI може бути не кількість годин даних, а кількість нових зразків, отриманих на кожен долар. Для робототехнічних компаній, які все ще розповідають історію про маховик даних, ринок у кінцевому підсумку може дивитися не на те, скільки накопичено годин роботи, а на те, скільки нової інформації було згенеровано за ці години. Натисніть, щоб дізнатися про відкриті вакансії в Rhythm BlockBeats **Ласкаво просимо до офіційної спільноти Rhythm BlockBeats:**Telegram підписка: https://t.me/theblockbeatsTelegram для спілкування: https://t.me/BlockBeats_AppTwitter офіційний акаунт: https://twitter.com/BlockBeatsAsia

Дані колесо чи повторні зразки? Physical AI має попрощатися з «культом годин»

«Години даних» можуть бути забобоном рівня відбивання в робототехніці

Три типи даних дають різні речі

Більше даних корисні, але повторювані зразки швидко дорожчають

Маховик розгортання працює, лише якщо ранні сценарії достатньо «нові»

Наратива оцінки не може обмежуватися питанням, скільки годин накопичено

Популярні теми

SKHynixTopsKOSPIByMarketCap

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Закріплено