Подібно до того, як GPT може перетворювати ваші запити та робочі записи на повторно використовувані навички, ASPIRE також перетворює невдачі та виправлення робота на досвід, який можна використовувати в майбутньому.

Однак він рецензує не код, а процес роботи робота.

Кожного разу, коли робот виконує завдання, ASPIRE записує такі процеси, як сприйняття, навігація, захоплення, зіткнення та планування руху.

Викликаний ним GPT / Claude діє як дослідник, визначаючи, де в завданні виникла проблема, та ітеративно вдосконалюючи програму. Якщо вона спрацьовує, накопичений досвід записується в навичку (Skill).

Таким чином, робот може постійно навчатися, пишучи код, переглядаючи траєкторії виконання, виправляючи програми та накопичуючи навички.

І це не просто перетворення досвіду робота на навички.

Керівник відділу робототехніки NVIDIA Джим Фан також зазначив, що ASPIRE представляє абсолютно нову парадигму безперервного навчання.

Серед них:

Навчання перетворюється з градієнтного спуску на постійне відточування навичок (Skill Refinement);
Навчена модель тепер відповідає не просто набору ваг з плаваючою комою, а постійно розширюваній бібліотеці сенсомоторних навичок робота (Sensorimotor Skills);
Розподілене навчання перетворюється на те, що група агентів практикує різні навички, а потім зводить досвід до спільної бібліотеки навичок.

Результатом навчання не обов’язково є ваги

Хоча в основному все вже було описано на початку, перш ніж говорити про те, як це змінює парадигму навчання роботів, варто трохи пояснити контекст.

Повна назва ASPIRE — Agentic Skill Programming through Iterative Robot Exploration.

Він дозволяє роботу виконувати завдання за допомогою коду, а після невдачі переглядати мультимодальні траєкторії виконання, виправляти програму та зберігати виправлений досвід у бібліотеку навичок, яка постійно розширюється.

Тут навичка (Skill), хоча по суті є контекстом, який подається великій моделі, містить перевірений набір шаблонів виправлення коду (Code Repair Pattern), який дозволяє роботу знати, як змінити програму керування при виникненні певного типу проблеми.

Наприклад, коли робот намагається взяти радіоприймач, вже ідентифікував ціль, але не може до неї наблизитися.

Агент може проаналізувати, що причина не в помилці ідентифікації, а в тому, що цільові точки, надані планувальником (Planner), потрапляють у буфер зіткнення перешкод.

Таким чином, ASPIRE на основі цього досвіду узагальнює нову навичку:

Якщо планування не вдається таким чином, спробуйте наблизитися до цілі під різними кутами, наприклад 45°, 90°, 180°, доки не знайдете шлях без зіткнень.

У майбутньому, коли виникне подібний сценарій, незалежно від того, чи ціль — радіоприймач, мікрохвильова піч чи інші меблі, цей досвід можна безпосередньо використати, не витрачаючи час на повторні спроби.

До цього моменту ви можете запитати. Хіба навчання роботів не повинно включати збір даних, градієнтний спуск, ваги моделі, реальний збір даних, симуляцію та перенесення в реальність?

Чому раптом все звелося до накопичення навичок?

Тут варто спочатку згадати нещодавно популярну парадигму — Code as Policy.

На відміну від наскрізних стратегічних моделей, таких як VLA, Code as Policy не змушує модель безпосередньо виводити рухи робота. Натомість велика модель пише виконувану програму керування роботом.

Програма може викликати модулі сприйняття, API планування та примітиви керування, наприклад, розпізнавання об'єктів, планування шляху, переміщення маніпулятора, виконання захоплення.

Таким чином, поведінка робота більше не повністю прихована у вагах нейронної мережі, а стає виконуваним операційним кодом.

Маючи код, його можна перевіряти, змінювати, налагоджувати та продовжувати оптимізувати за допомогою сучасних надзвичайно потужних моделей-агентів.

Однак раніше Code as Policy мав дві проблеми.

По-перше, коли робот зазнавав невдачі, система зазвичай знала лише «завдання не виконано», але не знала, чи проблема в сприйнятті, нестабільному захопленні, зіткненні під час планування шляху чи в неправильній відновлювальній дії.

По-друге, і це більш критично, він не пам'ятав.

Після виконання завдання всі виправлення, стратегії відновлення, способи написання запитів, виявлені під час налагодження, просто втрачалися. Наступного разу доводилося починати все спочатку.

Саме тому Джим Фан сказав:

(Завдяки ASPIRE) коли робот виконує 100-те завдання, він нарешті не такий необізнаний, як при виконанні першого.

Простіше кажучи, весь цей процес схожий на те, як працює інженер-робототехнік:

Коли програма робота не виконується, інженер переглядає процес виконання, аналізує результати сприйняття, траєкторії руху, визначає, чи проблема в захопленні, плануванні, чи в тому, що якась відновлювальна дія не спрацювала.

Після виправлення інженер записує цей досвід. Наступного разу, коли він стикається з об'єктом на столі, ручкою шухляди або навігацією у вузькому просторі, він не починає з нуля.

ASPIRE робить саме це: передає механізм накопичення досвіду агенту. Він не просто змушує велику модель писати код для робота, але й змушує її багаторазово пробувати, багаторазово переглядати, багаторазово виправляти у середовищі виконання, а потім перетворює перевірений досвід виправлення на навичку.

Отже, у ASPIRE навчання — це вже не просто градієнтний спуск.

Процес навчання перетворюється на відточування навичок (Skill Refinement); а результатом навчання є не тільки ваги моделі, але й бібліотека навичок робота, яка постійно поповнюється та зростає.

Триетапний конвеєр

У статті ця ідея реалізована як триетапний конвеєр.

Спочатку йде robot execution engine, тобто двигун виконання робота.

Після невдачі традиційної програми робота система може просто повідомити, що завдання не виконано.

ASPIRE розкладає невдачу на складові: кожне сприйняття, планування, захоплення, виклик керування залишає вхідні дані, вихідні дані, візуальні докази та журнали помилок.

Подібно до того, як інженер-людина, налагоджуючи робота, переглядає відео, дивиться траєкторії, перевіряє, чи проблема в сприйнятті чи в захопленні, ASPIRE передає цю роботу агенту-програмісту.

Далі йде skill library. Після виправлення програми агент не викидає цей досвід, а перетворює його на повторно використовувані знання.

На сайті бібліотеки навичок можна побачити дуже конкретні пункти, наприклад, як писати текстовий запит для SAM3, як наближатися до об'єктів на краю столу під різними кутами, як фільтрувати хибні виявлення ручок шухляд, який примітив руху використовувати при штовханні плоских об'єктів.

Вони не схожі на традиційні ваги моделі; вони більше нагадують нотатки програміста-робототехніка про "підводні камені".

Нарешті, evolutionary search.

Агент не просто слідує одній лінії виправлень; система генерує кілька кандидатів керуючих програм, запускає їх у середовищі виконання, а потім продовжує ітерацію на основі програм, які вижили, та траєкторій невдач.

У програмній інженерії coding agents звикли писати код, запускати тести, переглядати трасування, виправляти помилки. ASPIRE переносить цей цикл у фізичний світ.

Експериментальна перевірка

Щоб підтвердити цей метод, стаття провела тестування на трьох класичних бенчмарках для роботів, включаючи LIBERO-Pro, Robosuite та BEHAVIOR-1K, які охоплюють узагальнені маніпуляції, контактно-інтенсивні маніпуляції та тривалі домашні завдання.

Загальні результати були значно кращими, ніж попередні методи Code as Policy.

Наприклад, у завданні Bimanual Handover (передача об'єкта двома руками) в Robosuite ASPIRE підвищив успішність з 20% до 92%.

Що стосується здатності до узагальнення.

Спочатку дослідники накопичували Skill Library на LIBERO-90, а потім безпосередньо перенесли її на небачене раніше довге завдання LIBERO-Pro Long, без додаткового навчання на новому завданні та без оновлення бібліотеки навичок.

Результати показали, що зі збільшенням бібліотеки навичок успішність робота на новому завданні також зростала, від майже нульової здатності до 31%. Іншими словами, чим товстіша бібліотека навичок, тим менше робот схожий на новачка.

Інформація про авторів

Наприкінці технічного блогу NVIDIA також опублікувала повний список авторів.

Як і раніше, це знайомі обличчя команди GEAR: Джим Фан, Чжу Юке, Гуанчжі Ван, Ші Гуан'я та інші.

Троє перших авторів мають однаковий внесок.

Серед них, Runyu Lu зараз є аспірантом другого року в Мічиганському університеті, проходить стажування в GEAR; Yuubo Wu з Університету Іллінойсу в Урбана-Шампейн (UIUC), а Ethan Kou з Каліфорнійського університету в Берклі, наразі студент бакалаврату.

Варто зазначити, що вчора NVIDIA також оголосила про розширення набору до команди робототехніки в Китаї, відкривши багато вакансій у Пекіні, Шанхаї та Шеньчжені, що охоплюють такі напрямки, як втілений інтелект, симуляція, розгортання роботів та архітектура рішень.

Джерело: Quantum Bit

Попередження про ризики та відмова від відповідальності

        Ринок ризикований, інвестиції потребують обережності. Ця стаття не є інвестиційною рекомендацією і не враховує особливі інвестиційні цілі, фінансовий стан або потреби окремих користувачів. Користувачі повинні самостійно оцінювати, чи відповідають будь-які думки, погляди чи висновки в цій статті їхній конкретній ситуації. Інвестиції на основі цієї інформації здійснюються на власний ризик.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
132,91K Популярність
#
StrategyBuybackSurges12%
1,11M Популярність
#
IsraelStrikesIranBTCPlunges
67,27K Популярність
#
PredictWorldCupShare20000U
542,75K Популярність
#
TrumpDisclosesOver100MBTCETH
3,83M Популярність

Закріплено

карта сайту

Час навичок втіленого інтелекту! NVIDIA відкрила вихідний код бібліотеки навичок роботів, Джим Фан: парадигма змінилася

Результатом навчання не обов’язково є ваги

Триетапний конвеєр

Експериментальна перевірка

Інформація про авторів

Популярні теми

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Закріплено