Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
CFD
CFD-деривативи на акції США
Акції США
Отримайте доступ до реальних акцій США та ETF
Акції Гонконгу
Торгуйте якісними акціями з лістингом у Гонконгу
Корейські акції
SK Hynix
Торгуйте реальними корейськими акціями та інвестуйте в популярні активи
Ф'ючерси на акції
Високе кредитне плече, торгівля 24/7
Токенізовані акції
Забезпечено реальними фондовими активами
IPO Access
Отримайте повний доступ до глобальних IPO акцій
GUSD
Мінтіть GUSD для отримання дохідності від казначейських RWA
Активності з акціями
Торгуйте популярними акціями та відкривайте щедрі аірдропи
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
IPO Access
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Gate Wealth
візьміть під контроль своє фінансове майбутнє
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
USD1 8% річних
Без блоку, вивід у будь-який час.
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
Час навичок втіленого інтелекту! NVIDIA відкрила вихідний код бібліотеки навичок роботів, Джим Фан: парадигма змінилася
6! Роботи теж можуть вивчати навички.
Щойно NVIDIA випустила набір навичок, які дозволяють роботам постійно зростати —
ASPIRE.
Зрозумілою мовою, ASPIRE трохи нагадує Coding Agent для роботів.
Подібно до того, як GPT може перетворювати ваші запити та робочі записи на повторно використовувані навички, ASPIRE також перетворює невдачі та виправлення робота на досвід, який можна використовувати в майбутньому.
Однак він рецензує не код, а процес роботи робота.
Кожного разу, коли робот виконує завдання, ASPIRE записує такі процеси, як сприйняття, навігація, захоплення, зіткнення та планування руху.
Викликаний ним GPT / Claude діє як дослідник, визначаючи, де в завданні виникла проблема, та ітеративно вдосконалюючи програму. Якщо вона спрацьовує, накопичений досвід записується в навичку (Skill).
Таким чином, робот може постійно навчатися, пишучи код, переглядаючи траєкторії виконання, виправляючи програми та накопичуючи навички.
І це не просто перетворення досвіду робота на навички.
Керівник відділу робототехніки NVIDIA Джим Фан також зазначив, що ASPIRE представляє абсолютно нову парадигму безперервного навчання.
Серед них:
Результатом навчання не обов’язково є ваги
Хоча в основному все вже було описано на початку, перш ніж говорити про те, як це змінює парадигму навчання роботів, варто трохи пояснити контекст.
Повна назва ASPIRE — Agentic Skill Programming through Iterative Robot Exploration.
Він дозволяє роботу виконувати завдання за допомогою коду, а після невдачі переглядати мультимодальні траєкторії виконання, виправляти програму та зберігати виправлений досвід у бібліотеку навичок, яка постійно розширюється.
Тут навичка (Skill), хоча по суті є контекстом, який подається великій моделі, містить перевірений набір шаблонів виправлення коду (Code Repair Pattern), який дозволяє роботу знати, як змінити програму керування при виникненні певного типу проблеми.
Наприклад, коли робот намагається взяти радіоприймач, вже ідентифікував ціль, але не може до неї наблизитися.
Агент може проаналізувати, що причина не в помилці ідентифікації, а в тому, що цільові точки, надані планувальником (Planner), потрапляють у буфер зіткнення перешкод.
Таким чином, ASPIRE на основі цього досвіду узагальнює нову навичку:
У майбутньому, коли виникне подібний сценарій, незалежно від того, чи ціль — радіоприймач, мікрохвильова піч чи інші меблі, цей досвід можна безпосередньо використати, не витрачаючи час на повторні спроби.
До цього моменту ви можете запитати. Хіба навчання роботів не повинно включати збір даних, градієнтний спуск, ваги моделі, реальний збір даних, симуляцію та перенесення в реальність?
Чому раптом все звелося до накопичення навичок?
Тут варто спочатку згадати нещодавно популярну парадигму — Code as Policy.
На відміну від наскрізних стратегічних моделей, таких як VLA, Code as Policy не змушує модель безпосередньо виводити рухи робота. Натомість велика модель пише виконувану програму керування роботом.
Програма може викликати модулі сприйняття, API планування та примітиви керування, наприклад, розпізнавання об'єктів, планування шляху, переміщення маніпулятора, виконання захоплення.
Таким чином, поведінка робота більше не повністю прихована у вагах нейронної мережі, а стає виконуваним операційним кодом.
Маючи код, його можна перевіряти, змінювати, налагоджувати та продовжувати оптимізувати за допомогою сучасних надзвичайно потужних моделей-агентів.
Однак раніше Code as Policy мав дві проблеми.
По-перше, коли робот зазнавав невдачі, система зазвичай знала лише «завдання не виконано», але не знала, чи проблема в сприйнятті, нестабільному захопленні, зіткненні під час планування шляху чи в неправильній відновлювальній дії.
По-друге, і це більш критично, він не пам'ятав.
Після виконання завдання всі виправлення, стратегії відновлення, способи написання запитів, виявлені під час налагодження, просто втрачалися. Наступного разу доводилося починати все спочатку.
Саме тому Джим Фан сказав:
Простіше кажучи, весь цей процес схожий на те, як працює інженер-робототехнік:
Коли програма робота не виконується, інженер переглядає процес виконання, аналізує результати сприйняття, траєкторії руху, визначає, чи проблема в захопленні, плануванні, чи в тому, що якась відновлювальна дія не спрацювала.
Після виправлення інженер записує цей досвід. Наступного разу, коли він стикається з об'єктом на столі, ручкою шухляди або навігацією у вузькому просторі, він не починає з нуля.
ASPIRE робить саме це: передає механізм накопичення досвіду агенту. Він не просто змушує велику модель писати код для робота, але й змушує її багаторазово пробувати, багаторазово переглядати, багаторазово виправляти у середовищі виконання, а потім перетворює перевірений досвід виправлення на навичку.
Отже, у ASPIRE навчання — це вже не просто градієнтний спуск.
Процес навчання перетворюється на відточування навичок (Skill Refinement); а результатом навчання є не тільки ваги моделі, але й бібліотека навичок робота, яка постійно поповнюється та зростає.
Триетапний конвеєр
У статті ця ідея реалізована як триетапний конвеєр.
Спочатку йде robot execution engine, тобто двигун виконання робота.
Після невдачі традиційної програми робота система може просто повідомити, що завдання не виконано.
ASPIRE розкладає невдачу на складові: кожне сприйняття, планування, захоплення, виклик керування залишає вхідні дані, вихідні дані, візуальні докази та журнали помилок.
Подібно до того, як інженер-людина, налагоджуючи робота, переглядає відео, дивиться траєкторії, перевіряє, чи проблема в сприйнятті чи в захопленні, ASPIRE передає цю роботу агенту-програмісту.
Далі йде skill library. Після виправлення програми агент не викидає цей досвід, а перетворює його на повторно використовувані знання.
На сайті бібліотеки навичок можна побачити дуже конкретні пункти, наприклад, як писати текстовий запит для SAM3, як наближатися до об'єктів на краю столу під різними кутами, як фільтрувати хибні виявлення ручок шухляд, який примітив руху використовувати при штовханні плоских об'єктів.
Вони не схожі на традиційні ваги моделі; вони більше нагадують нотатки програміста-робототехніка про "підводні камені".
Нарешті, evolutionary search.
Агент не просто слідує одній лінії виправлень; система генерує кілька кандидатів керуючих програм, запускає їх у середовищі виконання, а потім продовжує ітерацію на основі програм, які вижили, та траєкторій невдач.
У програмній інженерії coding agents звикли писати код, запускати тести, переглядати трасування, виправляти помилки. ASPIRE переносить цей цикл у фізичний світ.
Експериментальна перевірка
Щоб підтвердити цей метод, стаття провела тестування на трьох класичних бенчмарках для роботів, включаючи LIBERO-Pro, Robosuite та BEHAVIOR-1K, які охоплюють узагальнені маніпуляції, контактно-інтенсивні маніпуляції та тривалі домашні завдання.
Загальні результати були значно кращими, ніж попередні методи Code as Policy.
Наприклад, у завданні Bimanual Handover (передача об'єкта двома руками) в Robosuite ASPIRE підвищив успішність з 20% до 92%.
Що стосується здатності до узагальнення.
Спочатку дослідники накопичували Skill Library на LIBERO-90, а потім безпосередньо перенесли її на небачене раніше довге завдання LIBERO-Pro Long, без додаткового навчання на новому завданні та без оновлення бібліотеки навичок.
Результати показали, що зі збільшенням бібліотеки навичок успішність робота на новому завданні також зростала, від майже нульової здатності до 31%. Іншими словами, чим товстіша бібліотека навичок, тим менше робот схожий на новачка.
Інформація про авторів
Наприкінці технічного блогу NVIDIA також опублікувала повний список авторів.
Як і раніше, це знайомі обличчя команди GEAR: Джим Фан, Чжу Юке, Гуанчжі Ван, Ші Гуан'я та інші.
Троє перших авторів мають однаковий внесок.
Серед них, Runyu Lu зараз є аспірантом другого року в Мічиганському університеті, проходить стажування в GEAR; Yuubo Wu з Університету Іллінойсу в Урбана-Шампейн (UIUC), а Ethan Kou з Каліфорнійського університету в Берклі, наразі студент бакалаврату.
Варто зазначити, що вчора NVIDIA також оголосила про розширення набору до команди робототехніки в Китаї, відкривши багато вакансій у Пекіні, Шанхаї та Шеньчжені, що охоплюють такі напрямки, як втілений інтелект, симуляція, розгортання роботів та архітектура рішень.
Джерело: Quantum Bit
Попередження про ризики та відмова від відповідальності