Physical Intelligence представляет архитектуру MEM, чтобы дать роботам память, необходимую для задач в реальном мире

Кратко

Исследователи разработали Multi-Scale Embodied Memory — систему, которая дает роботам краткосрочную и долгосрочную память, позволяя отслеживать прогресс и выполнять сложные задачи вместо простого выполнения изолированных действий.

Physical Intelligence Introduces MEM Architecture To Give Robots The Memory Needed For Real-World Tasks

Многолетняя мечта о по-настоящему полезном домашнем роботе казалась почти осуществимой. Роботы уже умеют выполнять команды вроде «вымой сковороду», «сложи белье» или «приготовь бутерброд». В лабораторных условиях эти системы демонстрируют впечатляющую ловкость и точность. Однако, несмотря на быстрый прогресс в области моделей роботов, чего-то фундаментального все еще не хватает: памяти.

Робот, способный выполнить одну задачу, — не то же самое, что робот, способный завершить работу. Уборка всей кухни, приготовление еды или подготовка ингредиентов требуют больше, чем просто изолированных навыков. Это требует непрерывности — способности помнить, что уже сделано, что еще нужно сделать и где находится всё необходимое. Без этой связующей нити даже самый способный робот оказывается удивительно неэффективным.

Именно с этой задачей сейчас пытаются справиться исследователи из Physical Intelligence, создав новую архитектуру под названием Multi-Scale Embodied Memory (MEM) — систему, предназначенную для обеспечения роботов как краткосрочной, так и долгосрочной памятью, чтобы они могли выполнять задачи, разворачивающиеся за минуты, а не секунды.

Результаты намекают на важное: будущее робототехники может зависеть меньше от улучшения механических рук и больше — от совершенствования когнитивной архитектуры.

Современные модели роботов уже обладают впечатляющей библиотекой моторных навыков. Они могут хватать хрупкие предметы, манипулировать инструментами и ориентироваться в загроможденных пространствах. Но попросите робота убрать всю кухню — протереть столы, убрать продукты, помыть посуду и организовать посуду — и ограничения быстро становятся очевидными.

Проблема не в навыках. Проблема в том, как эти навыки координируются. Сложные задачи требуют постоянного осознания ситуации. Роботу нужно помнить, какие шкафы он уже открыл, где он положил крышку кастрюли или помыл ли он посуду. Он также должен отслеживать объекты, которые выходят из поля зрения, и поддерживать ментальную карту окружающей среды, выполняя новые действия.

Человеческое восприятие делает это легко. Машинам до недавнего времени это было невозможно. Хранить каждое наблюдение, которое видит робот, в течение минут или часов — вычислительно невозможно. Но отказ от этой информации ведет к хаотичному поведению — повторяющимся ошибкам, забытым шагам или действиям, противоречащим предыдущим решениям. В робототехнике эту проблему иногда называют «каузальной путаницей», когда системы неправильно интерпретируют прошлые события и закрепляют неправильные поведения.

Результат: роботы, которые выглядят впечатляюще в коротких демонстрациях, но испытывают трудности при выполнении реальных задач.

Система памяти для Physical Intelligence

Архитектура MEM решает эту проблему, вводя многоуровневую структуру памяти. Вместо хранения всего одинаково, система разделяет память на две взаимодополняющие формы:

Краткосрочная визуальная память фиксирует недавние наблюдения с помощью эффективной архитектуры видеокодирования. Это позволяет роботу понимать движение, отслеживать объекты по кадрам и помнить события, произошедшие секунды назад — что важно для точных действий, таких как переворачивание бутерброда или мытье посуды.

Долгосрочная концептуальная память, в свою очередь, хранит прогресс выполнения задачи в виде естественного языка. Вместо бесконечного запоминания исходных визуальных данных робот создает краткие текстовые «заметки», описывающие произошедшее — например, «Я поставил кастрюлю в раковину» или «Я взял молоко из холодильника».

Эти сводки становятся частью процесса рассуждения робота. По сути, машина строит собственный нарратив о выполнении задачи. Механизм рассуждения системы одновременно решает два вопроса: какое действие выполнить дальше и какую информацию стоит запомнить. Эта комбинация позволяет модели отслеживать задачи продолжительностью до пятнадцати минут — значительно дольше большинства предыдущих демонстраций роботов.

Одной из самых интересных возможностей, которую обеспечивает MEM, является адаптация в контексте. Роботы совершают ошибки. Это неизбежно. Но большинство систем повторяют эти ошибки бесконечно, потому что у них нет памяти о неудачах.

Разница становится очевидной в простых экспериментах. В одном из них робот пытается поднять плоскую палочку для еды. Без памяти он многократно пытается захватить ее одним и тем же способом, который не срабатывает. С включенной памятью робот запоминает неудачную попытку и пробует другой подход — и в конце концов добивается успеха.

Еще один пример — открытие холодильника. Исходя только из визуальных данных, робот не может сразу определить, в какую сторону открывается дверь. Система без памяти просто повторяет одни и те же действия. Робот с памятью пробует открыть дверь в одном направлении, запоминает неудачу и затем пытается противоположную сторону.

Эти небольшие корректировки означают нечто важное: способность учиться в рамках самой задачи. Вместо полного полагания на обучающие данные робот адаптируется в реальном времени.

Исследователи протестировали систему с памятью на все более сложных задачах. Сначала — относительно простая: сделать бутерброд с сыром. Для этого требовалась краткосрочная память для управления временем и выполнения деликатных физических операций, таких как переворачивание хлеба и сервировка.

Затем — логистическая задача: собрать ингредиенты для рецепта. Роботу нужно было помнить, какие продукты он уже собрал, где они находятся, и закрыты ли ящики и шкафы. И, наконец, самая сложная ситуация — уборка всей кухни.

Это означало убрать предметы, помыть посуду, протереть поверхности и отслеживать, какие части комнаты уже очищены.

Модель с расширенной памятью значительно превосходила версии без структурированной памяти, демонстрируя большую надежность и более высокие показатели завершения задач.

Эта разница иллюстрирует важный сдвиг в робототехнике. Вместо оптимизации изолированных действий сейчас создаются системы, способные к продолжительным рабочим процессам.

Почему память — следующая граница в робототехнике

Более широкое значение MEM в том, что робототехника входит в новую фазу развития. Долгие годы область сосредотачивалась на восприятии и управлении: помогать машинам видеть окружающий мир и манипулировать объектами. В последнее время крупные мультимодальные модели значительно улучшили способность роботов интерпретировать инструкции и выполнять сложные моторные действия.

Но по мере развития этих возможностей узкое место переместилось. Следующая задача — когнитивная непрерывность — дать роботам возможность работать длительное время, не теряя цели. Памятные системы вроде MEM создают основу для этой непрерывности. Вместо реакции на каждое мгновение, роботы могут поддерживать внутренний нарратив о своих действиях, решениях и окружающей среде. Этот нарратив и есть то, что позволяет возникать сложному поведению.

Если этот подход продолжит развиваться, его последствия выйдут далеко за рамки уборки кухонь. В будущем роботы смогут следовать инструкциям, разворачивающимся на протяжении часов или даже дней. Представьте, что вы говорите домашнему помощнику:

«Я прихожу домой в 6 вечера — пожалуйста, приготовь ужин и убери дом по средам.»

Выполнить такую задачу потребует анализа длинных инструкций, планирования подзадач, запоминания прогресса и адаптации при возникновении ошибок.

Поддерживать длинную историю всех действий в виде исходного видеоматериала было бы невозможно. Вместо этого роботы, скорее всего, будут использовать иерархические системы памяти, в которых опыт сжимается в все более абстрактные представления.

MEM — это ранний шаг к такой архитектуре. Он показывает, что ключ к более способным роботам — не только сильнее моторы или более острые датчики, а лучше память и умение рассуждать о ней. Если роботы наконец смогут запомнить, что они делают, они, возможно, наконец смогут завершить начатое.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить