Так же, как GPT может превратить ваши промпты и рабочие записи в многократно используемые навыки, ASPIRE накапливает каждую неудачу и исправление робота в опыт, который можно вызывать в дальнейшем.

Только он проверяет не код, а процесс выполнения операций робота.

Каждый раз, когда робот выполняет задачу, ASPIRE записывает такие действия, как восприятие, навигация, захват, столкновения, планирование движения.

Вызываемый за кулисами GPT / Claude, как исследователь, определяет, где в задаче возникла проблема, и итеративно корректирует программу. Если программа проходит успешно, полученный опыт записывается в навык.

Таким образом, робот может непрерывно учиться, записывая код, просматривая траектории выполнения, исправляя программы и накапливая навыки.

И это не просто извлечение навыков из опыта робота.

Директор NVIDIA по робототехнике Джим Фан также отметил, что ASPIRE представляет собой совершенно новую парадигму непрерывного обучения.

Теперь:

Обучение превращается из градиентного спуска в постоянное совершенствование навыков (Skill Refinement);
Обученная модель больше не соответствует просто набору чисел весов, а представляет собой постоянно расширяющийся репозиторий сенсомоторных навыков робота (Sensorimotor Skills);
Распределённое обучение сводится к тому, что группа агентов тренирует разные навыки, а затем объединяет опыт в одном репозитории навыков.

То, что обучено, не обязательно веса

Хотя в начале уже было рассказано многое, прежде чем говорить о том, как изменится парадигма обучения роботов, давайте немного расскажем о предыстории.

Полное название ASPIRE — Agentic Skill Programming through Iterative Robot Exploration (Программирование агентных навыков через итеративное исследование робота).

Оно позволяет роботу выполнять задачи с помощью кода, а в случае неудачи просматривать мультимодальные траектории выполнения, затем исправлять программу и сохранять исправленный опыт в постоянно пополняемую библиотеку навыков (skills library).

Хотя такой навык по сути остаётся контекстом, подаваемым большой языковой модели, в нём накапливается проверенный шаблон исправления кода (Code Repair Pattern), который сообщает роботу, как модифицировать управляющую программу при возникновении определённых проблем.

Например, когда робот пытается взять радиоприёмник, он уже распознал цель, но не может к ней приблизиться.

Агент может проанализировать, что причина не в ошибке распознавания, а в том, что точки цели, заданные планировщиком (Planner), находятся в зоне коллизионного буфера препятствий.

Таким образом, на основе этого опыта ASPIRE формулирует новый навык:

Если такое планирование не удаётся, попробуйте повторно приближаться к цели под разными углами — 45°, 90°, 180° и т.д., пока не найдётся путь без коллизий.

В дальнейшем, когда робот столкнётся с похожей ситуацией, не важно, это радиоприёмник, микроволновка или другая мебель, этот опыт можно напрямую применить без повторных проб и ошибок.

Тут вы можете задаться вопросом. Разве обучение роботов не всегда сводится к данным, градиентному спуску, весам моделей, сбору данных на реальных роботах и переносу из симуляции в реальность?

Почему вдруг стало накопление навыков?

Здесь нужно упомянуть недавно ставшую популярной парадигму — Code as Policy.

В отличие от сквозных моделей вроде VLA, Code as Policy не заставляет модель напрямую выдавать действия робота, а поручает большой языковой модели написать исполняемую программу управления роботом.

В программе можно вызывать модули восприятия, API планирования и управляющие примитивы, например, распознавание объектов, планирование пути, перемещение манипулятора, выполнение захвата.

Таким образом, поведение робота больше не полностью скрыто в весах нейросети, а превращается в исполняемые операционные коды.

С кодом его можно проверять, изменять, отлаживать и оптимизировать с помощью нынешних очень сильных агентных моделей.

Но ранее у Code as Policy были две проблемы.

Первая: когда робот терпит неудачу, система обычно знает только «задача не выполнена», но не понимает, в чём ошибка: восприятие, захват, коллизия при планировании пути или сбой восстанавливающего действия.

Вторая, и более важная: система не запоминает.

После завершения задачи найденные при отладке решения, стратегии восстановления, формулировки промптов просто выбрасываются. В следующий раз, столкнувшись с похожей проблемой, придётся начинать заново.

Вот почему Джим Фан сказал:

(С ASPIRE) Когда робот завершает 100-ю задачу, он наконец перестаёт быть таким же невежественным, как при выполнении первой.

Говоря проще, весь этот процесс аналогичен работе инженера-робототехника:

Когда программа робота даёт сбой, инженер просматривает запись выполнения, смотрит результаты восприятия, анализирует траекторию движения, определяет, что пошло не так: захват, планирование или какое-то восстановительное действие не сработало.

После исправления инженер записывает этот опыт. В следующий раз, сталкиваясь с объектами на краю стола, ручкой ящика, навигацией в узком пространстве, он не будет начинать с нуля.

ASPIRE делает то же самое: передаёт этот механизм накопления опыта агенту. Он не просто заставляет большую языковую модель писать код для робота, но и заставляет модель многократно пробовать, многократно просматривать, многократно исправлять в среде выполнения, а затем накапливает проверенный опыт исправлений в виде навыков.

Поэтому в ASPIRE обучение — это уже не только градиентный спуск.

Процесс обучения превращается в совершенствование навыков (Skill Refinement); результатом обучения становятся не только веса модели, но и постоянно растущая библиотека навыков робота (Skills Library).

Трёхэтапный конвейер

В статье эта концепция реализована в виде трёхэтапного конвейера.

Сначала — robot execution engine, то есть исполнительный движок робота.

Традиционная программа робота при сбое может просто сообщить, что задача не выполнена.

ASPIRE разбивает неудачу на части: каждое восприятие, планирование, захват, вызов управления оставляют следы в виде входов, выходов, визуальных доказательств и логов ошибок.

Точно так же, как инженер-робототехник при отладке смотрит видео, траектории, проверяет, была ли ошибка в восприятии или захвате, ASPIRE поручает эти действия coding-агенту.

Далее — skill library. После того как агент исправил программу, опыт не выбрасывается, а превращается в повторно используемое знание.

На официальном сайте библиотеки навыков можно увидеть конкретные пункты: например, как писать текстовый промпт для SAM3, как подходить к объектам на краю стола под разными углами, как фильтровать ложные детекции ручки ящика, какой двигательный примитив использовать при толкании плоского объекта.

Эти навыки не похожи на традиционные веса модели; они больше напоминают заметки программиста роботов о допущенных ошибках.

Наконец — evolutionary search (эволюционный поиск).

Один агент не просто пробует один путь исправления; система генерирует несколько кандидатов управляющих программ, запускает их в среде выполнения, а затем продолжает итерации на основе выживших программ и неудачных траекторий.

В программной инженерии coding-агенты уже привыкли писать код, запускать тесты, смотреть трассировку, исправлять баги. ASPIRE переносит этот цикл в физический мир.

Экспериментальная проверка

Для проверки метода в статье были проведены тесты на трёх классических эталонах для роботов: LIBERO-Pro, Robosuite и BEHAVIOR-1K, которые охватывают обобщённые манипуляции, контактно-интенсивные манипуляции и длительные бытовые задачи.

Общие результаты значительно превзошли предыдущие методы Code as Policy.

Например, в задаче двуручной передачи объекта (Bimanual Handover) в Robosuite ASPIRE увеличил успешность с 20% до 92%.

Касательно способности к обобщению.

Исследование началось с накопления библиотеки навыков на LIBERO-90, а затем прямой перенос на никогда не виденные LIBERO-Pro Long (длинные задачи), без дополнительного обучения на новых задачах и без обновления библиотеки навыков.

Результаты показали, что по мере увеличения библиотеки навыков успешность робота на новых задачах также росла — от почти нулевого уровня до 31%. Иными словами, чем толще библиотека навыков, тем меньше робот похож на новичка.

Авторы

В конце технического блога NVIDIA опубликовала полный список авторов.

Это всё те же знакомые лица из команды GEAR: Джим Фан, Чжу Юкэ, Гуанчжи Ван, Ши Гуанья и другие.

Первые три автора указаны как равные соавторы.

Среди них Runyu Lu сейчас аспирант второго курса Мичиганского университета, проходит стажировку в GEAR; Yuubo Wu из Университета Иллинойса в Урбана-Шампейн (UIUC); Ethan Kou из Калифорнийского университета в Беркли, ещё бакалавр.

Стоит отметить, что только вчера NVIDIA объявила о расширении набора в свою команду робототехники в Китае, открыв множество вакансий в Пекине, Шанхае и Шэньчжэне, охватывающих направления воплощённого интеллекта, симуляции, развёртывания роботов и архитектуры решений.

Источник: Quantum Bit

Предупреждение о рисках и отказ от ответственности

        Рынок рискован, инвестиции требуют осторожности. Эта статья не является индивидуальной инвестиционной рекомендацией и не учитывает особые инвестиционные цели, финансовое положение или потребности отдельных пользователей. Пользователи должны самостоятельно оценить, соответствуют ли какие-либо мнения, взгляды или выводы в этой статье их конкретным условиям. Инвестиции на основе этой статьи осуществляются на свой страх и риск.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateCompletesDividendDistribution
132,91K Популярность
#
StrategyBuybackSurges12%
1,11M Популярность
#
IsraelStrikesIranBTCPlunges
67,27K Популярность
#
PredictWorldCupShare20000U
562,61K Популярность
#
TrumpDisclosesOver100MBTCETH
3,83M Популярность

Закреплено

Карта сайта

Время навыков воплощенного интеллекта! NVIDIA открыла библиотеку навыков роботов, Jim Fan: парадигма изменилась.

То, что обучено, не обязательно веса

Трёхэтапный конвейер

Экспериментальная проверка

Авторы

Популярные темы

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Закреплено