Команда Fudan NLP опубликовала 80-страничный обзор крупномасштабных модельных агентов, в котором в одной статье представлен обзор текущей ситуации и будущего агентов ИИ.

Источник: Сердце машины.

Недавно группа обработки естественного языка Университета Фудань (FudanNLP) выпустила обзорный документ об агентах на основе LLM. Полный текст занимает 86 страниц и содержит более 600 ссылок! Начиная с истории агентов ИИ, авторы всесторонне разобрали текущий статус интеллектуальных агентов на основе больших языковых моделей, включая: предысторию, состав, сценарии применения агентов на основе LLM и широко обсуждаемое агентское общество**. В то же время авторы обсудили перспективные и открытые вопросы, связанные с Агентом, которые имеют большое значение для будущих тенденций развития смежных областей.

* Бумажная ссылка:

  • Список документов агента на базе LLM:

**Члены команды также добавят «резюме в одно предложение» к каждому соответствующему документу, добро пожаловать на склад Star. **

Исследование

В течение долгого времени исследователи занимались созданием общего искусственного интеллекта (AGI), который эквивалентен человеческому уровню или даже превосходит его. Еще в 1950-х годах Алан Тьюринг распространил понятие «интеллект» на искусственные объекты и предложил знаменитый тест Тьюринга. Эти сущности искусственного интеллекта часто называют агентами. Понятие «агент» зародилось в философии и описывает сущность, имеющую желания, убеждения, намерения и способность действовать. В области искусственного интеллекта этому термину придали новое значение: разумные сущности, обладающие характеристиками автономии, реактивности, позитивности и коммуникабельности.

**Не существует единого мнения относительно китайского перевода термина «Агент». Некоторые ученые переводят его как «агент», «действующее лицо», «агент» или «разумный агент». «Агент» и «разумный агент», встречающиеся в этой статье, относятся к агенту. *

С тех пор создание агентов находится в центре внимания сообщества искусственного интеллекта. Однако прошлые работы в основном были сосредоточены на улучшении конкретных способностей агентов, таких как символическое мышление или овладение конкретными задачами (шахматы, го и т. д.). Эти исследования больше фокусируются на разработке алгоритмов и стратегиях обучения, игнорируя при этом развитие присущих модели общих возможностей, таких как память знаний, долгосрочное планирование, эффективное обобщение и эффективное взаимодействие. Оказывается, **улучшение присущих модели возможностей является ключевым фактором содействия дальнейшему развитию интеллектуальных агентов. **

Появление больших языковых моделей (LLM) дает надежду на дальнейшее развитие интеллектуальных агентов. Если путь развития от НЛП к ОИИ разделить на пять уровней: корпус, Интернет, восприятие, воплощение и социальные атрибуты, то нынешняя крупномасштабная языковая модель достигла второго уровня, с вводом и выводом текста в масштабе Интернета. Исходя из этого, если агентам, основанным на LLM, предоставить пространство восприятия и пространство действий, они достигнут третьего и четвертого уровней. Более того, когда несколько агентов взаимодействуют и сотрудничают для решения более сложных задач или отражения социального поведения в реальном мире, у них есть потенциал достичь пятого уровня — общества агентов.

*Авторы представляют себе гармоничное общество разумных агентов, в котором могут участвовать и люди. Сцена взята из Фестиваля морских фонарей в «Genshin Impact». *

Рождение Агента

Как будет выглядеть интеллектуальный агент, поддерживаемый большой моделью? Вдохновленные дарвиновским законом «выживает сильнейший», авторы предложили общую структуру интеллектуальных агентов, основанную на больших моделях. Если человек хочет выжить в обществе, он должен научиться приспосабливаться к окружающей среде, поэтому ему необходимо обладать когнитивными способностями и уметь воспринимать и реагировать на изменения внешнего мира. Аналогично, структура интеллектуальных агентов также состоит из трёх частей: **Терминал управления (Brain), терминал восприятия (Perception) и терминал действия (Action). **

  • Терминал управления: Обычно состоит из LLM и является ядром интеллектуальных агентов. Он может не только хранить память и знания, но также выполнять незаменимые функции, такие как обработка информации и принятие решений. Он может представлять процесс рассуждения и планирования и хорошо справляться с неизвестными задачами, отражая обобщение и переносимость интеллектуальных агентов.
  • Конец восприятия: Расширьте пространство восприятия интеллектуального агента от чистого текста, включив в него мультимодальные поля, такие как текст, зрение и слух, чтобы агент мог более эффективно получать и использовать информацию из окружающей среды.
  • Мобильный терминал: Помимо обычного вывода текста, агенту также предоставляется возможность воплощаться и использовать инструменты, позволяющие ему лучше адаптироваться к изменениям окружающей среды, взаимодействовать с окружающей средой посредством обратной связи и даже формировать среда.

Концептуальная основа Агента на основе LLM состоит из трех компонентов: стороны управления (Brain), стороны восприятия (Perception) и стороны действия (Action).

Авторы используют пример, чтобы проиллюстрировать рабочий процесс агента на основе LLM: когда человек спрашивает, будет ли дождь, окончание восприятия (Восприятие) преобразует инструкцию в представление, понятное LLM. Затем терминал управления (Мозг) приступает к рассуждениям и планированию действий на основе текущей погоды и прогнозов погоды в Интернете. Наконец, Действие отвечает и передает зонт человеку.

Повторяя описанный выше процесс, интеллектуальный агент может непрерывно получать обратную связь и взаимодействовать с окружающей средой.

Терминал управления: Мозг

В качестве основного компонента интеллектуального агента авторы представляют его возможности с пяти аспектов:

**Взаимодействие на естественном языке: **Язык является средством общения и содержит богатую информацию. Благодаря мощным возможностям LLM по генерации естественного языка и пониманию интеллектуальные агенты могут взаимодействовать с внешним миром в течение нескольких раундов посредством естественного языка для достижения своих целей. Конкретно его можно разделить на два аспекта:

  • Генерация высококачественного текста: большое количество оценочных экспериментов показывает, что LLM могут генерировать беглый, разнообразный, новый и контролируемый текст. Несмотря на низкую успеваемость на отдельных языках, в целом имеются хорошие многоязычные навыки.
  • Понимание смысла: помимо интуитивно выраженного содержания, язык может также передавать такую информацию, как намерения и предпочтения говорящего. Подразумевается, что это помогает агентам более эффективно общаться и сотрудничать, и крупные модели уже продемонстрировали потенциал в этом отношении.

Знания. Магистр права, прошедший обучение на основе больших массивов корпусов, обладает способностью хранить огромные объемы знаний. В дополнение к знанию языка важными компонентами агентов, работающих на базе LLM, являются знания здравого смысла и профессиональных навыков.

Хотя у самих студентов LLM все еще есть такие проблемы, как просроченные знания и галлюцинации, некоторые существующие исследования могут в определенной степени облегчить их за счет редактирования знаний или обращения к внешним базам знаний.

Память: В рамках этой статьи модуль памяти (Память) хранит прошлые наблюдения, мысли и последовательности действий агента. Благодаря специальным механизмам памяти агенты могут эффективно размышлять и применять предыдущие стратегии, что позволяет им использовать прошлый опыт для адаптации к незнакомой среде.

Для улучшения памяти обычно используются три метода:

  • Расширьте предел длины магистральной архитектуры: улучшите проблему ограничения длины последовательности, присущую трансформаторам.
  • Подведение итогов: обобщите воспоминания, чтобы улучшить способность агента извлекать ключевые детали из памяти.
  • Сжатие. Эффективность извлечения данных из памяти можно повысить, используя векторы или соответствующие структуры данных для сжатия памяти.

Кроме того, важен и метод извлечения памяти: только извлекая соответствующий контент, агент может получить доступ к наиболее актуальной и точной информации.

Рассуждение и планирование. Способность рассуждать (рассуждение) имеет решающее значение для интеллектуальных агентов при выполнении сложных задач, таких как принятие решений и анализ. Специально для программ LLM это серия методов подсказок, представленных цепочкой мыслей (CoT). Планирование — это часто используемая стратегия при столкновении с большими проблемами. Это помогает агентам организовать свое мышление, поставить цели и определить шаги для достижения этих целей. В конкретной реализации планирование может включать в себя два этапа:

  • Формулирование плана: агент разбивает сложные задачи на более управляемые подзадачи. Например: однократная декомпозиция с последующим последовательным выполнением, пошаговое планирование и исполнение, многопутевое планирование и выбор оптимального пути и т.д. В некоторых сценариях, требующих профессиональных знаний, агенты могут быть интегрированы с модулями Planner в определенных областях для расширения возможностей.
  • Анализ плана: после составления плана вы можете поразмышлять над ним и оценить его сильные и слабые стороны. Этот вид размышления обычно исходит из трех аспектов: использование внутренних механизмов обратной связи; получение обратной связи от взаимодействия с людьми; получение обратной связи от окружающей среды.

**Перенос и обобщение: **LLM с мировыми знаниями наделяют интеллектуальных агентов мощными возможностями миграции и обобщения. Хороший агент — это не статичная база знаний, он также обладает возможностями динамического обучения:

  • Обобщение неизвестных задач: по мере увеличения размера модели и обучающих данных у LLM появились удивительные возможности в решении неизвестных задач. Большая модель, настроенная с помощью инструкций, хорошо показала себя в тесте с нулевым выстрелом, достигнув результатов, не уступающих экспертным моделям во многих задачах.
  • Обучение в контексте: большие модели не только способны учиться по аналогии на небольшом количестве примеров в контексте, но эта способность также может быть распространена на мультимодальные сцены за пределами текста, предоставляя агентам больше возможностей для применения в контексте. реальный мир.Множество возможностей. *Непрерывное обучение. Основная проблема непрерывного обучения — катастрофическое забывание, то есть, когда модель изучает новую задачу, она легко теряет знания по прошлым задачам. Интеллектуальные агенты в специализированных областях должны стараться избегать потери знаний в общих областях.

Конец восприятия: Восприятие

Люди воспринимают мир мультимодально, поэтому исследователи возлагают одни и те же ожидания на агентов на основе LLM. Мультимодальное восприятие может углубить понимание агентом рабочей среды и значительно повысить ее универсальность.

Ввод текста: Я не буду здесь вдаваться в подробности, поскольку это самая базовая способность LLM.

**Визуальный ввод:**Сами LLM не обладают возможностями визуального восприятия и могут понимать только дискретный текстовый контент. А визуальный ввод обычно содержит много информации о мире, включая свойства объектов, пространственные отношения, расположение сцены и т. д. Распространенными методами являются:

  • Преобразование визуальных данных в соответствующее текстовое описание (подписи к изображениям): они могут быть понятны преподавателям LLM и имеют высокую интерпретируемость.
  • Кодирование и представление визуальной информации. Модуль восприятия состоит из парадигмы визуальной базовой модели + LLM, и модель может понимать содержание различных модальностей посредством операций выравнивания, которые можно обучать сквозным образом.

Слуховой сигнал. Слух также является важной частью человеческого восприятия. Поскольку LLM обладают отличными возможностями вызова инструментов, интуитивная идея заключается в том, что агент может использовать LLM в качестве центра управления, каскадно вызывая существующие наборы инструментов или экспертные модели для восприятия аудиоинформации. Кроме того, звук также можно визуально представить через спектрограмму. Спектрограммы можно использовать как плоские изображения для отображения 2D-информации, поэтому некоторые методы визуальной обработки можно перенести в речевое поле.

Другие исходные данные. В реальном мире информация — это гораздо больше, чем просто текст, зрение и слух. Авторы надеются, что в будущем интеллектуальные агенты будут оснащены более богатыми модулями восприятия, такими как осязание, обоняние и другие органы, чтобы получать более богатые атрибуты целевых объектов. В то же время агенты также могут четко чувствовать температуру, влажность и яркость окружающей среды и предпринимать больше действий с учетом окружающей среды.

Кроме того, агента также можно познакомить с восприятием более широкой окружающей среды: используя зрелые модули восприятия, такие как лидар, GPS и инерциальные измерительные блоки.

Мобильный терминал: Действие

После того, как мозг проанализирует и примет решения, агенту также необходимо предпринять действия по адаптации или изменению окружающей среды:

Вывод текста: Я не буду вдаваться в подробности, поскольку это самая базовая способность LLM.

**Использование инструментов:**Хотя LLM обладают отличными запасами знаний и профессиональными способностями, при столкновении с конкретными проблемами может возникнуть ряд проблем, таких как проблемы с надежностью и галлюцинации. В то же время инструменты, как расширение возможностей пользователя, могут оказать помощь в таких аспектах, как профессионализм, актуальность и интерпретируемость. Например, вы можете использовать калькулятор для решения математических задач и поисковую систему для поиска информации в реальном времени.

Кроме того, инструменты также могут расширить пространство действий интеллектуальных агентов. Например, мультимодальные действия можно получить, вызывая такие экспертные модели, как генерация речи и генерация изображения. Поэтому то, как сделать так, чтобы агенты стали отличными пользователями инструментов, то есть научились эффективно использовать инструменты, — это очень важное и перспективное направление.

В настоящее время основные методы инструментального обучения включают обучение на демонстрациях и обучение на основе обратной связи. Кроме того, метаобучение, курсовое обучение и т. д. также могут использоваться для предоставления агентам возможностей обобщения при использовании различных инструментов. Сделав еще один шаг вперед, интеллектуальные агенты смогут научиться создавать инструменты «самостоятельно», тем самым увеличивая свою автономию и независимость.

**Воплощенное действие: **Воплощение относится к способности агента понимать, преобразовывать окружающую среду и обновлять свое собственное состояние во время взаимодействия с окружающей средой. Embodied Action рассматривается как мост между виртуальным интеллектом и физической реальностью.

Традиционные агенты, основанные на обучении с подкреплением, имеют ограничения в эффективности выборки, обобщении и решении сложных проблем, в то время как агенты на основе LLM предоставляют богатые внутренние знания о больших моделях, позволяя воплощенным агентам активно воспринимать физику и влиять на нее, как и люди, на окружающую среду. В зависимости от степени автономности агента в задаче или сложности Действия могут быть следующие атомарные Действия:

  • Наблюдение может помочь интеллектуальным агентам определять местонахождение в окружающей среде, воспринимать объекты и предметы и получать другую информацию об окружающей среде;
  • Манипуляция заключается в выполнении некоторых конкретных операций, таких как захват и толкание;
  • Навигация требует, чтобы интеллектуальный агент менял свое положение в соответствии с целью задачи и обновлял свой статус в соответствии с информацией об окружающей среде.

Комбинируя эти атомарные действия, агенты могут выполнять более сложные задачи. Например, воплощенные задачи контроля качества, такие как «Арбуз на кухне больше, чем миска?» Чтобы решить эту проблему, агенту необходимо пройти на кухню и получить ответ, изучив размеры обеих.

Ограниченные высокой стоимостью аппаратного обеспечения физического мира и отсутствием наборов воплощенных данных, текущие исследования воплощенных действий по-прежнему в основном сосредоточены на виртуальных средах-песочницах, таких как игровая платформа «Minecraft». Поэтому, с одной стороны, авторы надеются на парадигму задачи и стандарт оценки, которые будут ближе к реальности, а с другой стороны, им также необходимы дополнительные исследования по эффективному построению соответствующих наборов данных.

Агент на практике: разнообразные сценарии применения

В настоящее время агенты, получившие степень LLM, продемонстрировали впечатляющее разнообразие и высокую производительность. Знакомые примеры приложений, такие как AutoGPT, MetaGPT, CAMEL и GPT Engineer, развиваются с беспрецедентной скоростью.

Прежде чем представить конкретные приложения, авторы обсуждают принципы проектирования Agent in Practice:

  1. Помогите пользователям освободиться от ежедневных задач и повторяющегося труда, снизить нагрузку на человека и повысить эффективность решения задач;

  2. Пользователям больше не нужно давать явные инструкции низкого уровня, и они могут анализировать, планировать и решать проблемы совершенно независимо;

  3. Освободив руки пользователя, попытайтесь освободить мозг: дайте полную свободу своему потенциалу в передовых научных областях и завершите инновационную и исследовательскую работу.

Исходя из этого, применение агентов может иметь три парадигмы:

*Три парадигмы применения агента на основе LLM: одиночный агент, мультиагент и взаимодействие человека и компьютера. *

Сценарий с одним агентом

Интеллектуальные агенты, способные принимать команды на естественном языке человека и выполнять повседневные задачи, в настоящее время пользуются популярностью у пользователей и имеют высокую практическую ценность. Авторы сначала подробно остановились на его разнообразных сценариях применения и соответствующих возможностях в сценарии применения одного интеллектуального агента.

В данной статье применение единого интеллектуального агента разделено на следующие три уровня:

*Три уровня сценариев применения одного агента: ориентированный на задачи, ориентированный на инновации и ориентированный на жизненный цикл. *

  • При развертывании ориентированном на выполнение задач агент помогает пользователям-людям выполнять основные повседневные задачи. Им необходимо иметь базовое понимание команд, декомпозицию задач и способность взаимодействовать с окружающей средой. В частности, в зависимости от существующих типов задач фактическое применение агентов можно разделить на моделируемые сетевые среды и моделируемые жизненные сценарии.
  • При развертывании ориентированном на инновации агенты могут продемонстрировать потенциал независимых исследований в передовых научных областях. Хотя присущая им сложность и отсутствие обучающих данных в специализированных областях препятствуют созданию интеллектуальных агентов, уже ведется большая работа в таких областях, как химия, материалы, компьютеры и т. д.
  • При развертывании, ориентированном на жизненный цикл**, агенты имеют возможность постоянно исследовать, изучать и использовать новые навыки в открытом мире и выживать в течение длительного времени. В этом разделе авторы в качестве примера берут игру «Майнкрафт». Поскольку задачу выживания в игре можно считать микрокосмом реального мира, многие исследователи использовали ее как уникальную платформу для разработки и проверки комплексных возможностей агентов.

Мультиагентный сценарий

Еще в 1986 году Марвин Мински сделал дальновидный прогноз. В «Обществе разума» он предложил новую теорию интеллекта, утверждая, что интеллект возникает в результате взаимодействия множества более мелких агентов, выполняющих определенные функции. Например, некоторые агенты могут отвечать за выявление закономерностей, тогда как другие могут отвечать за принятие решений или генерирование решений.

Эта идея была реализована конкретно с появлением распределенного искусственного интеллекта. Мультиагентные системы (Multi-Agent), как одна из основных проблем исследования, в основном сосредоточены на том, как агенты могут эффективно координировать свои действия и сотрудничать для решения проблем. Автор данной статьи делит взаимодействие между несколькими агентами на следующие две формы:

*Две формы взаимодействия в сценариях мультиагентного применения: кооперативное взаимодействие и конфронтационное взаимодействие. *

Кооперативное взаимодействие. Являясь наиболее широко используемым типом в практических приложениях, системы кооперативных агентов могут эффективно повысить эффективность выполнения задач и совместно улучшить процесс принятия решений. В частности, по различным формам сотрудничества авторы подразделяют кооперативные взаимодействия на неупорядоченное сотрудничество и упорядоченное сотрудничество.

  • Когда все агенты свободно выражают свои взгляды и мнения и сотрудничают непоследовательно, это называется неупорядоченным сотрудничеством.
  • Когда все агенты следуют определенным правилам, например, выражают свое мнение один за другим в виде конвейера, весь процесс сотрудничества является упорядоченным, что называется упорядоченным сотрудничеством.

Состязательное взаимодействие. Интеллектуальные агенты взаимодействуют друг с другом по принципу «око за око». Посредством конкуренции, переговоров и дебатов агенты отказываются от своих первоначальных, возможно, ошибочных убеждений и проводят содержательные размышления о своем собственном поведении или процессе рассуждения, что в конечном итоге приводит к улучшению качества реакции всей системы.

Сценарий взаимодействия человека с компьютером

Взаимодействие человека и агента, как следует из названия, представляет собой интеллектуальный агент, который сотрудничает с людьми для выполнения задач. С одной стороны, способность агента к динамическому обучению должна поддерживаться посредством общения; с другой стороны, нынешняя агентская система все еще недостаточно интерпретируема и может иметь проблемы с безопасностью, законностью и т. д., поэтому требует участия человека. и надзор.

В статье авторы разделяют взаимодействие человека и агента на следующие два режима:

*Два режима в сценариях взаимодействия человека и компьютера: режим инструктора и режим равноправного партнерства. *

  • Режим инструктора-наставника: люди действуют как инструкторы, давая инструкции и обратную связь; агенты действуют как исполнители, постепенно адаптируясь и оптимизируясь в соответствии с инструкциями. Эта модель широко используется в образовании, медицине, бизнесе и других сферах.
  • Режим равноправного партнерства. Некоторые исследования показали, что агенты могут проявлять сочувствие в общении с людьми или участвовать в выполнении задач на равных. Интеллектуальные агенты демонстрируют потенциал для применения в повседневной жизни и, как ожидается, будут интегрированы в человеческое общество в будущем.

Агентское общество: от личности к социальности

От игры-песочницы «The Sims» до «Метавселенной» определение симулируемого общества, принятое людьми, можно резюмировать следующим образом: окружающая среда + люди, живущие и взаимодействующие в окружающая среда.

В статье авторы используют диаграмму для описания концептуальной основы Агентского общества:

*Концептуальная основа агентского общества, разделенная на две ключевые части: агентность и среда. *

В этой структуре мы можем увидеть:

  1. Левая часть: На индивидуальном уровне агенты демонстрируют разнообразные внутренние модели поведения, такие как планирование, рассуждение и размышление. Кроме того, агенты демонстрируют внутренние черты личности, которые охватывают когнитивные, эмоциональные и личностные измерения.
  2. Средняя часть: Один агент может сформировать группу с другими отдельными агентами, чтобы совместно демонстрировать групповое поведение, такое как сотрудничество, например совместное сотрудничество.
  3. Правая часть: Среда может быть в форме виртуальной песочницы или реального физического мира. Элементы окружающей среды включают людей и различные доступные ресурсы. Для одного агента другие агенты также являются частью среды.
  4. Общее взаимодействие. Агенты активно участвуют во всем процессе взаимодействия, ощущая внешнюю среду и предпринимая действия.

Социальное поведение и личность агентов

В статье рассматривается деятельность агентов в обществе с точки зрения внешнего поведения и внутренней личности:

Социальное поведение. С социальной точки зрения поведение можно разделить на два уровня: индивидуальный и коллективный:

  • Индивидуальное поведение составляет основу работы и развития самого агента. Он включает в себя входные данные, представленные восприятием, выходные данные, представленные действием, и собственное интернализованное поведение агента.
  • Поведение толпы — это поведение, возникающее при спонтанном взаимодействии двух или более агентов. Оно включает в себя позитивное поведение, представленное сотрудничеством, негативное поведение, представленное конфликтом, и нейтральное поведение, такое как следование за стадом и наблюдение.

Личность: включая когнитивные способности, эмоции и личность. Подобно тому, как люди постепенно развивают свои собственные черты в процессе социализации, агенты также демонстрируют так называемый «человеческий интеллект», который представляет собой постепенное формирование личности посредством взаимодействия с группами и окружающей средой.

  • Когнитивные способности: Охватывает процесс, посредством которого агенты приобретают и понимают знания. Исследования показывают, что агенты, основанные на LLM, могут проявлять рассудительность и интеллект, сходные с людьми в некоторых аспектах.
  • Эмоциональный интеллект: включает в себя субъективные чувства и эмоциональные состояния, такие как радость, гнев, печаль и радость, а также способность проявлять сочувствие и сопереживание.
  • Характер (изображение персонажа): Чтобы понять и проанализировать личностные характеристики выпускников LLM, исследователи использовали зрелые методы оценки, такие как тесты «Большая пятерка личности» и MBTI, чтобы изучить разнообразие и сложность личности.

Имитация социальной операционной среды

Агентское общество не только состоит из независимых индивидов, но также включает в себя среду, с которой они взаимодействуют. Окружающая среда влияет на то, как агенты воспринимают, действуют и взаимодействуют. В свою очередь, агенты также изменяют состояние окружающей среды своими действиями и решениями. Для отдельного агента среда включает в себя других автономных агентов, людей и доступные ресурсы.

Здесь авторы исследуют три типа сред:

Текстовые среды. Поскольку LLM в первую очередь полагаются на язык в качестве формата ввода и вывода, текстовые среды являются наиболее естественной операционной платформой для агентов. Социальные явления и взаимодействия описываются посредством слов, а текстовая среда обеспечивает семантические и фоновые знания. Агенты существуют в таких текстовых мирах и полагаются на текстовые ресурсы, чтобы воспринимать, рассуждать и действовать.

Виртуальная изолированная среда. В компьютерной сфере «песочница» означает контролируемую и изолированную среду, часто используемую для тестирования программного обеспечения и анализа вирусов. Виртуальная среда-песочница общества агентов служит платформой для моделирования социального взаимодействия и поведенческой симуляции. Ее основные функции включают в себя:

  • Визуализация: вы можете использовать простые двухмерные графические интерфейсы или даже сложное трехмерное моделирование для отображения мира, интуитивно изображая все аспекты моделируемого общества.
  • Масштабируемость: различные сценарии (Интернет, игры и т. д.) могут быть созданы и развернуты для проведения различных экспериментов, предоставляя агентам широкое пространство для исследования.

Реальная физическая среда. Физическая среда – это осязаемая среда, состоящая из реальных объектов и пространств, в которых агенты наблюдают и действуют. Эта среда вводит богатую сенсорную информацию (визуальную, слуховую и пространственную). В отличие от виртуальных сред, физические пространства предъявляют больше требований к поведению агентов. То есть агент должен быть адаптируемым в физической среде и генерировать исполняемое управление движением.

Автор приводит пример, объясняющий сложность физической среды: представьте себе интеллектуального агента, управляющего роботизированной рукой на заводе. При работе роботизированной руки требуется точный контроль силы, чтобы избежать повреждения объектов из разных материалов; кроме того, Агенту необходимо находиться в физическом рабочем пространстве. Перемещайтесь посередине и вовремя корректируйте траекторию движения, чтобы избежать препятствий и оптимизировать траекторию движения роботизированной руки.

Эти требования увеличивают сложность и сложность работы агентов в физической среде.

**Моделирование, начинай! **

В статье авторы считают, что моделируемое общество должно быть открытым, устойчивым, ситуативным и организованным. Открытость позволяет агентам входить и выходить из моделируемого общества автономно; постоянство означает, что общество имеет последовательную траекторию, которая развивается с течением времени; контекстуальность подчеркивает существование и функционирование субъектов в конкретной среде; организация гарантирует, что моделируемое общество имеет физический мир. как правила и ограничения.

Что касается значения моделируемого общества, то город Генеративных агентов Стэнфордского университета представляет собой яркий пример для всех — Общество агентов можно использовать для изучения возможностей группового интеллекта, например, агенты совместно организовали вечеринку в честь Дня святого Валентина; его также можно использовать Ускорить исследования в области социальных наук, такие как наблюдение за коммуникативными явлениями путем моделирования социальных сетей. Кроме того, проводятся исследования, направленные на изучение ценностей, стоящих за агентами, путем моделирования этических сценариев принятия решений, а также для оказания помощи в принятии решений путем моделирования воздействия политики на общество.

Кроме того, автор отметил, что эти симуляции также могут иметь определенные риски, включая, помимо прочего: вредные социальные явления; стереотипы и предрассудки; проблемы конфиденциальности и безопасности; чрезмерную зависимость и зависимость.

Прогнозные открытые вопросы

В конце статьи автор также обсуждает некоторые перспективные открытые вопросы и вдохновляет читателей на размышления:

**Как исследования интеллектуальных агентов и больших языковых моделей могут способствовать друг другу и развиваться вместе? **Большие модели продемонстрировали большой потенциал в понимании языка, принятии решений и способности к обобщению и стали играть ключевую роль в процессе создания агентов.Прогресс агентов также выдвинул более высокие требования к большим моделям.

**Какие проблемы и проблемы принесут агенты, работающие на базе LLM? ** Для того, чтобы интеллектуальные агенты действительно могли быть реализованы на практике, требуется тщательная оценка безопасности, чтобы избежать вреда реальному миру. Автор суммирует больше потенциальных угроз, таких как: незаконное злоупотребление, риск безработицы, влияние на благосостояние человека и т. д.

**Какие возможности и проблемы принесет расширение масштабов деятельности? **В симулируемом обществе увеличение числа людей может значительно повысить достоверность и достоверность симуляции. Однако по мере увеличения числа агентов проблемы коммуникации и распространения сообщений станут довольно сложными, а искажение информации, непонимание или галлюцинации значительно снизят эффективность всей системы моделирования.

**В Интернете ведутся споры о том, является ли агент на основе LLM подходящим путем к AGI. **Некоторые исследователи полагают, что крупные модели, представленные GPT-4, были обучены на достаточном корпусе, и агенты, созданные на этой основе, потенциально могут стать ключом к открытию двери в AGI. Но другие исследователи полагают, что авторегрессионное языковое моделирование не демонстрирует настоящего интеллекта, поскольку оно только реагирует. Более полный метод моделирования, такой как World Model, может привести к AGI.

**Эволюция роевого интеллекта. Роевой интеллект — это процесс сбора мнений множества людей и преобразования их в решения. **Однако, можно ли создать настоящий «разведчик» путем простого увеличения числа агентов? Кроме того, как координировать действия отдельных агентов, чтобы дать возможность обществу интеллектуальных агентов преодолеть «групповое мышление» и личные когнитивные предубеждения?

**Агент как услуга (AaaS). **Поскольку агенты на основе LLM более сложны, чем сама большая модель, и малым и средним предприятиям или частным лицам сложнее создавать их локально, поставщики облачных услуг могут рассмотреть возможность внедрения интеллектуальных агентов в форме услуг, то есть агента. -как-услуга. Как и другие облачные сервисы, AaaS может предоставить пользователям высокую гибкость и самообслуживание по требованию.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить