Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Команда Fudan NLP опубликовала 80-страничный обзор крупномасштабных модельных агентов, в котором в одной статье представлен обзор текущей ситуации и будущего агентов ИИ.
Источник: Сердце машины.
Недавно группа обработки естественного языка Университета Фудань (FudanNLP) выпустила обзорный документ об агентах на основе LLM. Полный текст занимает 86 страниц и содержит более 600 ссылок! Начиная с истории агентов ИИ, авторы всесторонне разобрали текущий статус интеллектуальных агентов на основе больших языковых моделей, включая: предысторию, состав, сценарии применения агентов на основе LLM и широко обсуждаемое агентское общество**. В то же время авторы обсудили перспективные и открытые вопросы, связанные с Агентом, которые имеют большое значение для будущих тенденций развития смежных областей.
**Члены команды также добавят «резюме в одно предложение» к каждому соответствующему документу, добро пожаловать на склад Star. **
Исследование
В течение долгого времени исследователи занимались созданием общего искусственного интеллекта (AGI), который эквивалентен человеческому уровню или даже превосходит его. Еще в 1950-х годах Алан Тьюринг распространил понятие «интеллект» на искусственные объекты и предложил знаменитый тест Тьюринга. Эти сущности искусственного интеллекта часто называют агентами. Понятие «агент» зародилось в философии и описывает сущность, имеющую желания, убеждения, намерения и способность действовать. В области искусственного интеллекта этому термину придали новое значение: разумные сущности, обладающие характеристиками автономии, реактивности, позитивности и коммуникабельности.
**Не существует единого мнения относительно китайского перевода термина «Агент». Некоторые ученые переводят его как «агент», «действующее лицо», «агент» или «разумный агент». «Агент» и «разумный агент», встречающиеся в этой статье, относятся к агенту. *
С тех пор создание агентов находится в центре внимания сообщества искусственного интеллекта. Однако прошлые работы в основном были сосредоточены на улучшении конкретных способностей агентов, таких как символическое мышление или овладение конкретными задачами (шахматы, го и т. д.). Эти исследования больше фокусируются на разработке алгоритмов и стратегиях обучения, игнорируя при этом развитие присущих модели общих возможностей, таких как память знаний, долгосрочное планирование, эффективное обобщение и эффективное взаимодействие. Оказывается, **улучшение присущих модели возможностей является ключевым фактором содействия дальнейшему развитию интеллектуальных агентов. **
Появление больших языковых моделей (LLM) дает надежду на дальнейшее развитие интеллектуальных агентов. Если путь развития от НЛП к ОИИ разделить на пять уровней: корпус, Интернет, восприятие, воплощение и социальные атрибуты, то нынешняя крупномасштабная языковая модель достигла второго уровня, с вводом и выводом текста в масштабе Интернета. Исходя из этого, если агентам, основанным на LLM, предоставить пространство восприятия и пространство действий, они достигнут третьего и четвертого уровней. Более того, когда несколько агентов взаимодействуют и сотрудничают для решения более сложных задач или отражения социального поведения в реальном мире, у них есть потенциал достичь пятого уровня — общества агентов.
Рождение Агента
Как будет выглядеть интеллектуальный агент, поддерживаемый большой моделью? Вдохновленные дарвиновским законом «выживает сильнейший», авторы предложили общую структуру интеллектуальных агентов, основанную на больших моделях. Если человек хочет выжить в обществе, он должен научиться приспосабливаться к окружающей среде, поэтому ему необходимо обладать когнитивными способностями и уметь воспринимать и реагировать на изменения внешнего мира. Аналогично, структура интеллектуальных агентов также состоит из трёх частей: **Терминал управления (Brain), терминал восприятия (Perception) и терминал действия (Action). **
Авторы используют пример, чтобы проиллюстрировать рабочий процесс агента на основе LLM: когда человек спрашивает, будет ли дождь, окончание восприятия (Восприятие) преобразует инструкцию в представление, понятное LLM. Затем терминал управления (Мозг) приступает к рассуждениям и планированию действий на основе текущей погоды и прогнозов погоды в Интернете. Наконец, Действие отвечает и передает зонт человеку.
Повторяя описанный выше процесс, интеллектуальный агент может непрерывно получать обратную связь и взаимодействовать с окружающей средой.
Терминал управления: Мозг
В качестве основного компонента интеллектуального агента авторы представляют его возможности с пяти аспектов:
**Взаимодействие на естественном языке: **Язык является средством общения и содержит богатую информацию. Благодаря мощным возможностям LLM по генерации естественного языка и пониманию интеллектуальные агенты могут взаимодействовать с внешним миром в течение нескольких раундов посредством естественного языка для достижения своих целей. Конкретно его можно разделить на два аспекта:
Знания. Магистр права, прошедший обучение на основе больших массивов корпусов, обладает способностью хранить огромные объемы знаний. В дополнение к знанию языка важными компонентами агентов, работающих на базе LLM, являются знания здравого смысла и профессиональных навыков.
Хотя у самих студентов LLM все еще есть такие проблемы, как просроченные знания и галлюцинации, некоторые существующие исследования могут в определенной степени облегчить их за счет редактирования знаний или обращения к внешним базам знаний.
Память: В рамках этой статьи модуль памяти (Память) хранит прошлые наблюдения, мысли и последовательности действий агента. Благодаря специальным механизмам памяти агенты могут эффективно размышлять и применять предыдущие стратегии, что позволяет им использовать прошлый опыт для адаптации к незнакомой среде.
Для улучшения памяти обычно используются три метода:
Кроме того, важен и метод извлечения памяти: только извлекая соответствующий контент, агент может получить доступ к наиболее актуальной и точной информации.
Рассуждение и планирование. Способность рассуждать (рассуждение) имеет решающее значение для интеллектуальных агентов при выполнении сложных задач, таких как принятие решений и анализ. Специально для программ LLM это серия методов подсказок, представленных цепочкой мыслей (CoT). Планирование — это часто используемая стратегия при столкновении с большими проблемами. Это помогает агентам организовать свое мышление, поставить цели и определить шаги для достижения этих целей. В конкретной реализации планирование может включать в себя два этапа:
**Перенос и обобщение: **LLM с мировыми знаниями наделяют интеллектуальных агентов мощными возможностями миграции и обобщения. Хороший агент — это не статичная база знаний, он также обладает возможностями динамического обучения:
Конец восприятия: Восприятие
Люди воспринимают мир мультимодально, поэтому исследователи возлагают одни и те же ожидания на агентов на основе LLM. Мультимодальное восприятие может углубить понимание агентом рабочей среды и значительно повысить ее универсальность.
Ввод текста: Я не буду здесь вдаваться в подробности, поскольку это самая базовая способность LLM.
**Визуальный ввод:**Сами LLM не обладают возможностями визуального восприятия и могут понимать только дискретный текстовый контент. А визуальный ввод обычно содержит много информации о мире, включая свойства объектов, пространственные отношения, расположение сцены и т. д. Распространенными методами являются:
Слуховой сигнал. Слух также является важной частью человеческого восприятия. Поскольку LLM обладают отличными возможностями вызова инструментов, интуитивная идея заключается в том, что агент может использовать LLM в качестве центра управления, каскадно вызывая существующие наборы инструментов или экспертные модели для восприятия аудиоинформации. Кроме того, звук также можно визуально представить через спектрограмму. Спектрограммы можно использовать как плоские изображения для отображения 2D-информации, поэтому некоторые методы визуальной обработки можно перенести в речевое поле.
Другие исходные данные. В реальном мире информация — это гораздо больше, чем просто текст, зрение и слух. Авторы надеются, что в будущем интеллектуальные агенты будут оснащены более богатыми модулями восприятия, такими как осязание, обоняние и другие органы, чтобы получать более богатые атрибуты целевых объектов. В то же время агенты также могут четко чувствовать температуру, влажность и яркость окружающей среды и предпринимать больше действий с учетом окружающей среды.
Кроме того, агента также можно познакомить с восприятием более широкой окружающей среды: используя зрелые модули восприятия, такие как лидар, GPS и инерциальные измерительные блоки.
Мобильный терминал: Действие
После того, как мозг проанализирует и примет решения, агенту также необходимо предпринять действия по адаптации или изменению окружающей среды:
Вывод текста: Я не буду вдаваться в подробности, поскольку это самая базовая способность LLM.
**Использование инструментов:**Хотя LLM обладают отличными запасами знаний и профессиональными способностями, при столкновении с конкретными проблемами может возникнуть ряд проблем, таких как проблемы с надежностью и галлюцинации. В то же время инструменты, как расширение возможностей пользователя, могут оказать помощь в таких аспектах, как профессионализм, актуальность и интерпретируемость. Например, вы можете использовать калькулятор для решения математических задач и поисковую систему для поиска информации в реальном времени.
Кроме того, инструменты также могут расширить пространство действий интеллектуальных агентов. Например, мультимодальные действия можно получить, вызывая такие экспертные модели, как генерация речи и генерация изображения. Поэтому то, как сделать так, чтобы агенты стали отличными пользователями инструментов, то есть научились эффективно использовать инструменты, — это очень важное и перспективное направление.
В настоящее время основные методы инструментального обучения включают обучение на демонстрациях и обучение на основе обратной связи. Кроме того, метаобучение, курсовое обучение и т. д. также могут использоваться для предоставления агентам возможностей обобщения при использовании различных инструментов. Сделав еще один шаг вперед, интеллектуальные агенты смогут научиться создавать инструменты «самостоятельно», тем самым увеличивая свою автономию и независимость.
**Воплощенное действие: **Воплощение относится к способности агента понимать, преобразовывать окружающую среду и обновлять свое собственное состояние во время взаимодействия с окружающей средой. Embodied Action рассматривается как мост между виртуальным интеллектом и физической реальностью.
Традиционные агенты, основанные на обучении с подкреплением, имеют ограничения в эффективности выборки, обобщении и решении сложных проблем, в то время как агенты на основе LLM предоставляют богатые внутренние знания о больших моделях, позволяя воплощенным агентам активно воспринимать физику и влиять на нее, как и люди, на окружающую среду. В зависимости от степени автономности агента в задаче или сложности Действия могут быть следующие атомарные Действия:
Комбинируя эти атомарные действия, агенты могут выполнять более сложные задачи. Например, воплощенные задачи контроля качества, такие как «Арбуз на кухне больше, чем миска?» Чтобы решить эту проблему, агенту необходимо пройти на кухню и получить ответ, изучив размеры обеих.
Ограниченные высокой стоимостью аппаратного обеспечения физического мира и отсутствием наборов воплощенных данных, текущие исследования воплощенных действий по-прежнему в основном сосредоточены на виртуальных средах-песочницах, таких как игровая платформа «Minecraft». Поэтому, с одной стороны, авторы надеются на парадигму задачи и стандарт оценки, которые будут ближе к реальности, а с другой стороны, им также необходимы дополнительные исследования по эффективному построению соответствующих наборов данных.
Агент на практике: разнообразные сценарии применения
В настоящее время агенты, получившие степень LLM, продемонстрировали впечатляющее разнообразие и высокую производительность. Знакомые примеры приложений, такие как AutoGPT, MetaGPT, CAMEL и GPT Engineer, развиваются с беспрецедентной скоростью.
Прежде чем представить конкретные приложения, авторы обсуждают принципы проектирования Agent in Practice:
Помогите пользователям освободиться от ежедневных задач и повторяющегося труда, снизить нагрузку на человека и повысить эффективность решения задач;
Пользователям больше не нужно давать явные инструкции низкого уровня, и они могут анализировать, планировать и решать проблемы совершенно независимо;
Освободив руки пользователя, попытайтесь освободить мозг: дайте полную свободу своему потенциалу в передовых научных областях и завершите инновационную и исследовательскую работу.
Исходя из этого, применение агентов может иметь три парадигмы:
Сценарий с одним агентом
Интеллектуальные агенты, способные принимать команды на естественном языке человека и выполнять повседневные задачи, в настоящее время пользуются популярностью у пользователей и имеют высокую практическую ценность. Авторы сначала подробно остановились на его разнообразных сценариях применения и соответствующих возможностях в сценарии применения одного интеллектуального агента.
В данной статье применение единого интеллектуального агента разделено на следующие три уровня:
Мультиагентный сценарий
Еще в 1986 году Марвин Мински сделал дальновидный прогноз. В «Обществе разума» он предложил новую теорию интеллекта, утверждая, что интеллект возникает в результате взаимодействия множества более мелких агентов, выполняющих определенные функции. Например, некоторые агенты могут отвечать за выявление закономерностей, тогда как другие могут отвечать за принятие решений или генерирование решений.
Эта идея была реализована конкретно с появлением распределенного искусственного интеллекта. Мультиагентные системы (Multi-Agent), как одна из основных проблем исследования, в основном сосредоточены на том, как агенты могут эффективно координировать свои действия и сотрудничать для решения проблем. Автор данной статьи делит взаимодействие между несколькими агентами на следующие две формы:
Кооперативное взаимодействие. Являясь наиболее широко используемым типом в практических приложениях, системы кооперативных агентов могут эффективно повысить эффективность выполнения задач и совместно улучшить процесс принятия решений. В частности, по различным формам сотрудничества авторы подразделяют кооперативные взаимодействия на неупорядоченное сотрудничество и упорядоченное сотрудничество.
Состязательное взаимодействие. Интеллектуальные агенты взаимодействуют друг с другом по принципу «око за око». Посредством конкуренции, переговоров и дебатов агенты отказываются от своих первоначальных, возможно, ошибочных убеждений и проводят содержательные размышления о своем собственном поведении или процессе рассуждения, что в конечном итоге приводит к улучшению качества реакции всей системы.
Сценарий взаимодействия человека с компьютером
Взаимодействие человека и агента, как следует из названия, представляет собой интеллектуальный агент, который сотрудничает с людьми для выполнения задач. С одной стороны, способность агента к динамическому обучению должна поддерживаться посредством общения; с другой стороны, нынешняя агентская система все еще недостаточно интерпретируема и может иметь проблемы с безопасностью, законностью и т. д., поэтому требует участия человека. и надзор.
В статье авторы разделяют взаимодействие человека и агента на следующие два режима:
Агентское общество: от личности к социальности
От игры-песочницы «The Sims» до «Метавселенной» определение симулируемого общества, принятое людьми, можно резюмировать следующим образом: окружающая среда + люди, живущие и взаимодействующие в окружающая среда.
В статье авторы используют диаграмму для описания концептуальной основы Агентского общества:
В этой структуре мы можем увидеть:
Социальное поведение и личность агентов
В статье рассматривается деятельность агентов в обществе с точки зрения внешнего поведения и внутренней личности:
Социальное поведение. С социальной точки зрения поведение можно разделить на два уровня: индивидуальный и коллективный:
Личность: включая когнитивные способности, эмоции и личность. Подобно тому, как люди постепенно развивают свои собственные черты в процессе социализации, агенты также демонстрируют так называемый «человеческий интеллект», который представляет собой постепенное формирование личности посредством взаимодействия с группами и окружающей средой.
Имитация социальной операционной среды
Агентское общество не только состоит из независимых индивидов, но также включает в себя среду, с которой они взаимодействуют. Окружающая среда влияет на то, как агенты воспринимают, действуют и взаимодействуют. В свою очередь, агенты также изменяют состояние окружающей среды своими действиями и решениями. Для отдельного агента среда включает в себя других автономных агентов, людей и доступные ресурсы.
Здесь авторы исследуют три типа сред:
Текстовые среды. Поскольку LLM в первую очередь полагаются на язык в качестве формата ввода и вывода, текстовые среды являются наиболее естественной операционной платформой для агентов. Социальные явления и взаимодействия описываются посредством слов, а текстовая среда обеспечивает семантические и фоновые знания. Агенты существуют в таких текстовых мирах и полагаются на текстовые ресурсы, чтобы воспринимать, рассуждать и действовать.
Виртуальная изолированная среда. В компьютерной сфере «песочница» означает контролируемую и изолированную среду, часто используемую для тестирования программного обеспечения и анализа вирусов. Виртуальная среда-песочница общества агентов служит платформой для моделирования социального взаимодействия и поведенческой симуляции. Ее основные функции включают в себя:
Реальная физическая среда. Физическая среда – это осязаемая среда, состоящая из реальных объектов и пространств, в которых агенты наблюдают и действуют. Эта среда вводит богатую сенсорную информацию (визуальную, слуховую и пространственную). В отличие от виртуальных сред, физические пространства предъявляют больше требований к поведению агентов. То есть агент должен быть адаптируемым в физической среде и генерировать исполняемое управление движением.
Автор приводит пример, объясняющий сложность физической среды: представьте себе интеллектуального агента, управляющего роботизированной рукой на заводе. При работе роботизированной руки требуется точный контроль силы, чтобы избежать повреждения объектов из разных материалов; кроме того, Агенту необходимо находиться в физическом рабочем пространстве. Перемещайтесь посередине и вовремя корректируйте траекторию движения, чтобы избежать препятствий и оптимизировать траекторию движения роботизированной руки.
Эти требования увеличивают сложность и сложность работы агентов в физической среде.
**Моделирование, начинай! **
В статье авторы считают, что моделируемое общество должно быть открытым, устойчивым, ситуативным и организованным. Открытость позволяет агентам входить и выходить из моделируемого общества автономно; постоянство означает, что общество имеет последовательную траекторию, которая развивается с течением времени; контекстуальность подчеркивает существование и функционирование субъектов в конкретной среде; организация гарантирует, что моделируемое общество имеет физический мир. как правила и ограничения.
Что касается значения моделируемого общества, то город Генеративных агентов Стэнфордского университета представляет собой яркий пример для всех — Общество агентов можно использовать для изучения возможностей группового интеллекта, например, агенты совместно организовали вечеринку в честь Дня святого Валентина; его также можно использовать Ускорить исследования в области социальных наук, такие как наблюдение за коммуникативными явлениями путем моделирования социальных сетей. Кроме того, проводятся исследования, направленные на изучение ценностей, стоящих за агентами, путем моделирования этических сценариев принятия решений, а также для оказания помощи в принятии решений путем моделирования воздействия политики на общество.
Кроме того, автор отметил, что эти симуляции также могут иметь определенные риски, включая, помимо прочего: вредные социальные явления; стереотипы и предрассудки; проблемы конфиденциальности и безопасности; чрезмерную зависимость и зависимость.
Прогнозные открытые вопросы
В конце статьи автор также обсуждает некоторые перспективные открытые вопросы и вдохновляет читателей на размышления:
**Как исследования интеллектуальных агентов и больших языковых моделей могут способствовать друг другу и развиваться вместе? **Большие модели продемонстрировали большой потенциал в понимании языка, принятии решений и способности к обобщению и стали играть ключевую роль в процессе создания агентов.Прогресс агентов также выдвинул более высокие требования к большим моделям.
**Какие проблемы и проблемы принесут агенты, работающие на базе LLM? ** Для того, чтобы интеллектуальные агенты действительно могли быть реализованы на практике, требуется тщательная оценка безопасности, чтобы избежать вреда реальному миру. Автор суммирует больше потенциальных угроз, таких как: незаконное злоупотребление, риск безработицы, влияние на благосостояние человека и т. д.
**Какие возможности и проблемы принесет расширение масштабов деятельности? **В симулируемом обществе увеличение числа людей может значительно повысить достоверность и достоверность симуляции. Однако по мере увеличения числа агентов проблемы коммуникации и распространения сообщений станут довольно сложными, а искажение информации, непонимание или галлюцинации значительно снизят эффективность всей системы моделирования.
**В Интернете ведутся споры о том, является ли агент на основе LLM подходящим путем к AGI. **Некоторые исследователи полагают, что крупные модели, представленные GPT-4, были обучены на достаточном корпусе, и агенты, созданные на этой основе, потенциально могут стать ключом к открытию двери в AGI. Но другие исследователи полагают, что авторегрессионное языковое моделирование не демонстрирует настоящего интеллекта, поскольку оно только реагирует. Более полный метод моделирования, такой как World Model, может привести к AGI.
**Эволюция роевого интеллекта. Роевой интеллект — это процесс сбора мнений множества людей и преобразования их в решения. **Однако, можно ли создать настоящий «разведчик» путем простого увеличения числа агентов? Кроме того, как координировать действия отдельных агентов, чтобы дать возможность обществу интеллектуальных агентов преодолеть «групповое мышление» и личные когнитивные предубеждения?
**Агент как услуга (AaaS). **Поскольку агенты на основе LLM более сложны, чем сама большая модель, и малым и средним предприятиям или частным лицам сложнее создавать их локально, поставщики облачных услуг могут рассмотреть возможность внедрения интеллектуальных агентов в форме услуг, то есть агента. -как-услуга. Как и другие облачные сервисы, AaaS может предоставить пользователям высокую гибкость и самообслуживание по требованию.