Recentemente, a Equipe de Processamento de Linguagem Natural da Universidade Fudan (FudanNLP) lançou um artigo de revisão sobre Agentes baseados em LLM. O texto completo tem 86 páginas e mais de 600 referências! A partir da história dos Agentes de IA, os autores classificaram de forma abrangente o status atual dos agentes inteligentes com base em grandes modelos de linguagem, incluindo: o histórico, a composição, os cenários de aplicação dos Agentes baseados em LLM e a muito discutida sociedade de agentes**. Ao mesmo tempo, os autores discutiram questões futuras e abertas relacionadas ao Agente, que são de grande valor para as tendências futuras de desenvolvimento de campos relacionados.

* Link do artigo:

Lista de documentos de agentes baseados em LLM:

**Os membros da equipe também adicionarão um “resumo de uma frase” a cada artigo relevante. Bem-vindo ao armazém Star. **

Antecedentes da pesquisa

Há muito tempo que os investigadores têm procurado uma Inteligência Artificial Geral (AGI) que seja equivalente ou mesmo superior aos níveis humanos. Já na década de 1950, Alan Turing estendeu o conceito de “inteligência” a entidades artificiais e propôs o famoso teste de Turing. Estas entidades de inteligência artificial são frequentemente chamadas de agentes. O conceito de “agente” tem origem na filosofia e descreve uma entidade que possui desejos, crenças, intenções e capacidade de agir. No campo da inteligência artificial, este termo ganhou um novo significado: entidades inteligentes com características de autonomia, reatividade, positividade e sociabilidade.

**Não há consenso sobre a tradução chinesa do termo Agente. Alguns estudiosos o traduzem como agente, ator, agente ou agente inteligente. O “agente” e o “agente inteligente” que aparecem neste artigo referem-se ambos ao Agente. *

Desde então, o design de agentes tem sido o foco da comunidade de inteligência artificial. No entanto, os trabalhos anteriores concentraram-se principalmente no aprimoramento de habilidades específicas dos agentes, como o raciocínio simbólico ou o domínio de tarefas específicas (xadrez, Go, etc.). Esses estudos se concentram mais no projeto de algoritmos e estratégias de treinamento, ignorando o desenvolvimento das capacidades gerais inerentes ao modelo, como memória de conhecimento, planejamento de longo prazo, generalização eficaz e interação eficiente. Acontece que **aumentar as capacidades inerentes do modelo é um fator chave para promover o desenvolvimento de agentes inteligentes. **

O surgimento de grandes modelos de linguagem (LLMs) traz esperança para o desenvolvimento de agentes inteligentes. Se a rota de desenvolvimento da PNL para a AGI for dividida em cinco níveis: corpus, Internet, percepção, incorporação e atributos sociais, então o atual modelo de linguagem em larga escala atingiu o segundo nível, com entrada e saída de texto em escala da Internet. Nesta base, se for dado aos Agentes baseados no LLM espaço de percepção e espaço de ação, eles alcançarão o terceiro e quarto níveis. Além disso, quando múltiplos agentes interagem e cooperam para resolver tarefas mais complexas, ou reflectir comportamentos sociais no mundo real, têm o potencial para atingir o quinto nível – a sociedade dos agentes.

*Os autores imaginam uma sociedade harmoniosa de agentes inteligentes na qual os humanos também possam participar. A cena é tirada do Festival das Lanternas do Mar em “Genshin Impact”. *

O nascimento de um Agente

Como seria um agente inteligente apoiado por um modelo grande? Inspirados pela lei da “sobrevivência do mais apto” de Darwin, os autores propuseram uma estrutura geral para agentes inteligentes baseada em grandes modelos. Se uma pessoa deseja sobreviver em sociedade, ela deve aprender a se adaptar ao meio ambiente, por isso precisa ter habilidades cognitivas e ser capaz de perceber e responder às mudanças no mundo exterior. Da mesma forma, a estrutura de agentes inteligentes também consiste em três partes: **Terminal de controle (Cérebro), Terminal de percepção (Percepção) e Terminal de ação (Ação). **

Terminal de controle: Geralmente composto por LLMs, é o núcleo dos agentes inteligentes. Pode não apenas armazenar memória e conhecimento, mas também realizar funções indispensáveis, como processamento de informações e tomada de decisões. Pode apresentar o processo de raciocínio e planejamento e lidar bem com tarefas desconhecidas, refletindo a generalização e transferibilidade de agentes inteligentes.
Fim da percepção: Expanda o espaço de percepção do agente inteligente de texto puro para incluir campos multimodais, como texto, visão e audição, para que o agente possa obter e utilizar informações do ambiente circundante de forma mais eficaz.
Terminal móvel: Além da saída regular de texto, o agente também tem a capacidade de se incorporar e usar ferramentas, para que possa se adaptar melhor às mudanças ambientais, interagir com o ambiente por meio de feedback e até mesmo moldar o ambiente.

A estrutura conceitual do Agente baseado em LLM consiste em três componentes: fim de controle (Cérebro), fim de percepção (Percepção) e fim de ação (Ação).

Os autores usam um exemplo para ilustrar o fluxo de trabalho do Agente baseado em LLM: quando um humano pergunta se vai chover, o fim da percepção (Percepção) converte a instrução em uma representação que os LLMs podem entender. Em seguida, o terminal de controle (Brain) inicia o raciocínio e o planejamento de ações com base no clima atual e nas previsões meteorológicas na Internet. Finalmente, a Ação responde e entrega o guarda-chuva ao humano.

Ao repetir o processo acima, o agente inteligente pode obter feedback continuamente e interagir com o ambiente.

Terminal de controle: Cérebro

Como componente central do agente inteligente, os autores apresentam suas capacidades a partir de cinco aspectos:

**Interação de linguagem natural: **A linguagem é o meio de comunicação e contém informações ricas. Graças à poderosa geração de linguagem natural e aos recursos de compreensão dos LLMs, os agentes inteligentes podem interagir com o mundo exterior em várias rodadas por meio da linguagem natural para atingir seus objetivos. Especificamente, pode ser dividido em dois aspectos:

Geração de texto de alta qualidade: Um grande número de experimentos de avaliação mostram que os LLMs podem gerar texto fluente, diversificado, novo e controlável. Embora o fraco desempenho em línguas individuais, em geral, estão disponíveis boas competências multilingues.
Compreender a implicação: Além do conteúdo expresso intuitivamente, a linguagem também pode transmitir informações como as intenções e preferências do falante. A implicação é que ajuda os agentes a comunicar e a cooperar de forma mais eficiente, e grandes modelos já demonstraram o potencial neste sentido.

Conhecimento: LLMs treinados com base em grandes lotes de corpus têm a capacidade de armazenar grandes quantidades de conhecimento. Além do conhecimento do idioma, o conhecimento do bom senso e o conhecimento das habilidades profissionais são componentes importantes dos Agentes baseados em LLM.

Embora os próprios LLMs ainda tenham problemas como conhecimento expirado e alucinações, algumas pesquisas existentes podem aliviá-los até certo ponto por meio da edição de conhecimento ou da chamada a bases de conhecimento externas.

Memória: Na estrutura deste artigo, o módulo de memória (Memória) armazena as observações, pensamentos e sequências de ação anteriores do agente. Através de mecanismos de memória específicos, os agentes podem efetivamente refletir e aplicar estratégias anteriores, permitindo-lhes aproveitar experiências passadas para se adaptarem a ambientes desconhecidos.

Existem três métodos comumente usados para melhorar a capacidade de memória:

Estender o limite de comprimento da arquitetura Backbone: Melhorar o problema de limite de comprimento de sequência inerente dos Transformers.
Resumindo: Resuma a memória para aprimorar a capacidade do agente de extrair detalhes importantes da memória.
Compactação: A eficiência da recuperação de memória pode ser melhorada usando vetores ou estruturas de dados apropriadas para compactar a memória.

Além disso, o método de recuperação de memória também é importante: somente recuperando o conteúdo apropriado o agente pode acessar as informações mais relevantes e precisas.

Raciocínio e Planejamento: A capacidade de raciocínio (Raciocínio) é crucial para que agentes inteligentes executem tarefas complexas, como tomada de decisão e análise. Específico para LLMs, é uma série de métodos de prompt representados por Chain-of-Thought (CoT). O planejamento é uma estratégia comumente usada ao enfrentar grandes desafios. Ajuda os agentes a organizar seu pensamento, definir metas e identificar etapas para alcançá-las. Na implementação específica, o planejamento pode incluir duas etapas:

Formulação do Plano: O agente divide tarefas complexas em subtarefas mais gerenciáveis. Por exemplo: decomposição única e execução em sequência, planejamento e execução passo a passo, planejamento de múltiplos caminhos e seleção do caminho ideal, etc. Em alguns cenários que exigem conhecimento profissional, os agentes podem ser integrados aos módulos do Planner em áreas específicas para aprimorar as capacidades.
Planeje a Reflexão: Depois de fazer um plano, você pode refletir sobre ele e avaliar seus pontos fortes e fracos. Este tipo de reflexão geralmente vem de três aspectos: usar mecanismos internos de feedback; obter feedback da interação com os seres humanos; obter feedback do ambiente.

**Transferibilidade e generalização: **LLMs com conhecimento mundial dotam agentes inteligentes com poderosos recursos de migração e generalização. Um bom agente não é uma base de conhecimento estática, mas também possui capacidades dinâmicas de aprendizagem:

Generalização para tarefas desconhecidas: À medida que o tamanho do modelo e os dados de treinamento aumentam, os LLMs desenvolveram capacidades incríveis na resolução de tarefas desconhecidas. O grande modelo ajustado por meio de instruções teve um bom desempenho no teste zero-shot, alcançando resultados tão bons quanto os modelos especialistas em muitas tarefas.
Aprendizagem no contexto: Grandes modelos não só são capazes de aprender por analogia a partir de um pequeno número de exemplos no contexto, mas essa capacidade também pode ser estendida a cenas multimodais além do texto, proporcionando mais oportunidades para os agentes aplicarem no contexto. mundo real. Muitas possibilidades. *Aprendizagem Contínua: O principal desafio da aprendizagem contínua é o esquecimento catastrófico, ou seja, quando o modelo aprende uma nova tarefa, facilmente perde conhecimento em tarefas anteriores. Os agentes inteligentes em domínios especializados devem tentar evitar a perda de conhecimento em domínios gerais.

Fim da percepção: Percepção

Os humanos percebem o mundo de uma forma multimodal, portanto os pesquisadores têm as mesmas expectativas para os Agentes baseados em LLM. A percepção multimodal pode aprofundar a compreensão do agente sobre o ambiente de trabalho e melhorar significativamente a sua versatilidade.

Entrada de texto: Como é a habilidade mais básica dos LLMs, não entrarei em detalhes aqui.

**Entrada visual:**Os próprios LLMs não têm capacidades de percepção visual e só podem compreender conteúdo de texto discreto. E a entrada visual geralmente contém muitas informações sobre o mundo, incluindo propriedades de objetos, relações espaciais, layout de cena, etc. Os métodos comuns são:

Converter entrada visual em descrição de texto correspondente (legenda de imagem): pode ser entendida diretamente por LLMs e tem alta interpretabilidade.
Codificação e representação de informações visuais: O módulo de percepção é composto pelo paradigma do modelo visual básico + LLMs, e o modelo pode compreender o conteúdo de diferentes modalidades por meio de operações de alinhamento, que podem ser treinadas de ponta a ponta.

**Entrada auditiva:**A audição também é uma parte importante da percepção humana. Como os LLMs têm excelentes capacidades de chamada de ferramentas, uma ideia intuitiva é que o agente possa usar os LLMs como um centro de controle, chamando conjuntos de ferramentas existentes ou modelos especialistas em cascata para perceber informações de áudio. Além disso, o áudio também pode ser representado visualmente através de um espectrograma. Os espectrogramas podem ser usados como imagens planas para exibir informações 2D, portanto, alguns métodos de processamento visual podem ser transferidos para o campo da fala.

Outras informações: Há muito mais informações no mundo real do que apenas texto, visão e audição. Os autores esperam que, no futuro, os agentes inteligentes sejam equipados com módulos de percepção mais ricos, como tato, olfato e outros órgãos, para obter atributos mais ricos dos objetos-alvo. Ao mesmo tempo, os agentes também podem sentir claramente a temperatura, a umidade e o brilho do ambiente circundante e tomar ações mais conscientes do ambiente.

Além disso, o agente também pode ser apresentado à percepção do ambiente geral mais amplo: usando módulos de percepção maduros, como lidar, GPS e unidades de medição inercial.

Terminal móvel: Ação

Depois que o cérebro faz análises e decisões, o agente também precisa tomar ações para adaptar ou mudar o ambiente:

Saída de texto: Como a habilidade mais básica dos LLMs, não entrarei em detalhes aqui.

**Uso de ferramentas:**Embora os LLMs tenham excelentes reservas de conhecimento e capacidades profissionais, ao enfrentar problemas específicos, uma série de desafios, como problemas de robustez e alucinações, podem surgir. Ao mesmo tempo, as ferramentas, como uma extensão das capacidades do utilizador, podem fornecer ajuda em aspectos como profissionalismo, factualidade e interpretabilidade. Por exemplo, você pode usar uma calculadora para resolver problemas matemáticos e um mecanismo de busca para pesquisar informações em tempo real.

Além disso, as ferramentas também podem ampliar o espaço de ação dos agentes inteligentes. Por exemplo, ações multimodais podem ser obtidas chamando modelos especialistas, como geração de fala e geração de imagem. Portanto, como fazer com que os agentes se tornem excelentes usuários de ferramentas, ou seja, aprendam a usar as ferramentas de forma eficaz, é uma direção muito importante e promissora.

Atualmente, os principais métodos de aprendizagem de ferramentas incluem aprender com demonstrações e aprender com feedback. Além disso, meta-aprendizagem, aprendizagem de curso, etc. também podem ser usadas para fornecer aos agentes capacidades de generalização no uso de várias ferramentas. Indo um passo além, os agentes inteligentes podem aprender ainda mais como fazer ferramentas “autossuficientes”, aumentando assim a sua autonomia e independência.

**Ação incorporada: **A incorporação refere-se à capacidade de um agente compreender, transformar o ambiente e atualizar seu próprio estado durante a interação com o ambiente. A Ação Incorporada é considerada a ponte entre a inteligência virtual e a realidade física.

Os agentes tradicionais baseados em aprendizagem por reforço têm limitações na eficiência da amostra, generalização e raciocínio de problemas complexos, enquanto os Agentes baseados em LLM introduzem um rico conhecimento intrínseco de grandes modelos, permitindo que os Agentes Incorporados percebam e influenciem ativamente a física como os humanos. Dependendo do grau de autonomia do agente na tarefa ou da complexidade da Ação, podem existir as seguintes Ações atômicas:

A observação pode ajudar agentes inteligentes a se localizarem no ambiente, perceberem objetos e itens e obterem outras informações ambientais;
Manipulação consiste em realizar algumas operações específicas, como agarrar e empurrar;
A navegação exige que o agente inteligente mude sua posição de acordo com o objetivo da tarefa e atualize seu status de acordo com as informações ambientais.

Ao combinar essas ações atômicas, os agentes podem realizar tarefas mais complexas. Por exemplo, tarefas de controle de qualidade incorporadas, como “A melancia na cozinha é maior que a tigela?” Para resolver esse problema, o agente precisa navegar até a cozinha e derivar a resposta após observar o tamanho de ambos.

Limitada pelo alto custo do hardware do mundo físico e pela falta de conjuntos de dados incorporados, a pesquisa atual sobre ações incorporadas ainda está focada principalmente em ambientes sandbox virtuais, como a plataforma de jogos “Minecraft”. Portanto, por um lado, os autores buscam um paradigma de tarefa e um padrão de avaliação mais próximo da realidade. Por outro lado, eles também precisam de mais exploração na construção eficiente de conjuntos de dados relevantes.

Agente na prática: diversos cenários de aplicação

Atualmente, os Agentes baseados em LLM demonstraram diversidade impressionante e desempenho poderoso. Exemplos de aplicações familiares como AutoGPT, MetaGPT, CAMEL e GPT Engineer estão crescendo a uma velocidade sem precedentes.

Antes de apresentar aplicações específicas, os autores discutem os princípios de design do Agente na Prática:

Ajudar os usuários a se libertarem das tarefas diárias e do trabalho repetitivo, reduzir a pressão do trabalho humano e melhorar a eficiência na resolução de tarefas;
Os usuários não precisam mais emitir instruções explícitas de baixo nível e podem analisar, planejar e resolver problemas de forma totalmente independente;
Depois de libertar as mãos do utilizador, tente libertar o cérebro: aproveite ao máximo o seu potencial em campos científicos de ponta e conclua um trabalho inovador e exploratório.

Nesta base, a aplicação dos agentes pode ter três paradigmas:

*Três paradigmas de aplicação de Agente baseado em LLM: agente único, multiagente e interação humano-computador. *

Cenário de agente único

Agentes inteligentes que podem aceitar comandos de linguagem natural humana e realizar tarefas diárias são atualmente preferidos pelos usuários e têm alto valor prático. Os autores primeiro elaboraram seus diversos cenários de aplicação e capacidades correspondentes no cenário de aplicação de um único agente inteligente.

Neste artigo, a aplicação de um único agente inteligente é dividida nos três níveis a seguir:

*Três níveis de cenários de aplicação de agente único: orientado para tarefas, orientado para inovação e orientado para ciclo de vida. *

Em uma implantação orientada a tarefas, o agente ajuda os usuários humanos a lidar com tarefas diárias básicas. Eles precisam ter compreensão básica de comandos, decomposição de tarefas e capacidade de interagir com o ambiente. Especificamente, de acordo com os tipos de tarefas existentes, a aplicação real dos agentes pode ser dividida em ambientes de rede simulados e cenários de vida simulados.
Numa implantação orientada para a inovação, os agentes podem demonstrar o potencial de investigação independente em campos científicos de ponta. Embora a complexidade inerente e a falta de dados de treinamento em áreas especializadas dificultem a construção de agentes inteligentes, já há muito trabalho avançando em áreas como química, materiais, computadores, etc.
Em uma implantação orientada para o ciclo de vida, os agentes têm a capacidade de explorar, aprender e usar continuamente novas habilidades em um mundo aberto e sobreviver por um longo tempo. Nesta seção, os autores tomam o jogo “Minecraft” como exemplo. Como o desafio de sobrevivência no jogo pode ser considerado um microcosmo do mundo real, muitos pesquisadores o utilizaram como uma plataforma única para desenvolver e testar as capacidades abrangentes dos agentes.

Cenário multiagente

Já em 1986, Marvin Minsky fez uma previsão prospectiva. Em The Society of Mind, ele propôs uma nova teoria da inteligência, argumentando que a inteligência surge da interação de muitos agentes menores, com funções específicas. Por exemplo, alguns agentes podem ser responsáveis pela identificação de padrões, enquanto outros podem ser responsáveis pela tomada de decisões ou geração de soluções.

Esta ideia foi implementada concretamente com o surgimento da inteligência artificial distribuída. Os sistemas multiagentes (multiagentes), como uma das principais questões de pesquisa, concentram-se principalmente em como os agentes podem coordenar e colaborar de forma eficaz para resolver problemas. O autor deste artigo divide a interação entre vários agentes nas duas formas a seguir:

*Duas formas de interação em cenários de aplicação multiagentes: interação cooperativa e interação confrontacional. *

Interação cooperativa: Sendo o tipo mais amplamente implantado em aplicações práticas, os sistemas de agentes cooperativos podem efetivamente melhorar a eficiência das tarefas e melhorar conjuntamente a tomada de decisões. Especificamente, de acordo com as diferentes formas de cooperação, os autores subdividem as interações cooperativas em cooperação desordenada e cooperação ordenada.

Quando todos os agentes expressam livremente seus pontos de vista e opiniões e cooperam de forma não sequencial, isso é chamado de cooperação desordenada.
Quando todos os agentes seguem certas regras, como expressar suas opiniões um por um na forma de uma linha de montagem, todo o processo de cooperação é ordenado, o que é chamado de cooperação ordenada.

Interação adversária: Agentes inteligentes interagem de maneira igualitária. Através da competição, negociação e debate, os agentes abandonam as suas crenças originais possivelmente erróneas e conduzem reflexões significativas sobre o seu próprio comportamento ou processo de raciocínio, o que acaba por levar a uma melhoria na qualidade da resposta de todo o sistema.

Cenário de interação humano-computador

A Interação Homem-Agente, como o nome sugere, é um agente inteligente que coopera com humanos para completar tarefas. Por um lado, a capacidade de aprendizagem dinâmica do agente precisa ser apoiada pela comunicação; por outro lado, o sistema atual do agente ainda é insuficiente em termos de interpretabilidade e pode ter problemas de segurança, legalidade, etc., por isso requer participação humana. e supervisão.

No artigo, os autores dividem a interação Homem-Agente nos dois modos a seguir:

*Dois modos em cenários de interação humano-computador: modo Instrutor-tutor vs. modo Parceria Igualitária. *

Modo instrutor-tutor: Os humanos atuam como instrutores, dando instruções e feedback; os agentes atuam como executores, ajustando e otimizando gradualmente de acordo com as instruções. Este modelo tem sido amplamente utilizado na educação, medicina, negócios e outras áreas.
Modo Parceria Igualitária: Alguns estudos observaram que os agentes podem demonstrar empatia na comunicação com humanos ou participar da execução de tarefas como iguais. Os agentes inteligentes apresentam potencial para aplicação na vida diária e espera-se que sejam integrados na sociedade humana no futuro.

Sociedade de Agentes: Da Personalidade à Socialidade

Há muito tempo, os pesquisadores sonham em construir uma “sociedade artificial interativa”. Do jogo sandbox “The Sims” ao “Metaverso”, a definição das pessoas de sociedade simulada pode ser resumida como: ambiente + indivíduos que vivem e interagem no ambiente.

No artigo, os autores utilizam um diagrama para descrever a estrutura conceitual da sociedade do Agente:

*Uma estrutura conceitual para a sociedade agente, dividida em duas partes principais: agência e ambiente. *

Neste quadro podemos ver:

Seção do Lado Esquerdo: No nível individual, os agentes exibem uma variedade de comportamentos internalizados, como planejamento, raciocínio e reflexão. Além disso, os agentes exibem traços de personalidade intrínsecos que abrangem dimensões cognitivas, emocionais e de personalidade.
Parte intermediária: Um único agente pode formar um grupo com outros agentes individuais para exibir conjuntamente comportamentos de grupo, como cooperação, como cooperação colaborativa.
Parte direita: O ambiente pode ter a forma de um ambiente sandbox virtual ou de um mundo físico real. Os elementos do ambiente incluem atores humanos e vários recursos disponíveis. Para um único agente, outros agentes também fazem parte do ambiente.
Interação geral: Os agentes participam ativamente de todo o processo de interação, sentindo o ambiente externo e realizando ações.

Comportamento Social e Personalidade dos Agentes

O artigo examina a atuação dos agentes da sociedade sob a perspectiva do comportamento externo e da personalidade interna:

Comportamento social: Do ponto de vista social, o comportamento pode ser dividido em dois níveis: individual e coletivo:

O comportamento individual constitui a base para o funcionamento e desenvolvimento do próprio agente. Inclui a entrada representada pela percepção, a saída representada pela ação e o comportamento internalizado do próprio agente.
Comportamento de multidão refere-se ao comportamento que ocorre quando dois ou mais agentes interagem espontaneamente. Inclui comportamentos positivos representados pela colaboração, comportamentos negativos representados pelo conflito e comportamentos neutros, como seguir o rebanho e observar.

Personalidade: Incluindo cognição, emoção e personalidade. Tal como os humanos desenvolvem gradualmente as suas próprias características através do processo de socialização, os agentes também exibem a chamada “inteligência semelhante à humana”, que é a formação gradual da personalidade através da interacção com grupos e ambientes.

Habilidades cognitivas: Abrange o processo pelo qual os agentes adquirem e compreendem o conhecimento. Pesquisas mostram que os agentes baseados em LLM podem exibir deliberação e inteligência semelhantes aos humanos em alguns aspectos.
Inteligência emocional: Envolve sentimentos subjetivos e estados emocionais, como alegria, raiva, tristeza e alegria, bem como a capacidade de demonstrar simpatia e empatia.
Personagem (retrato de personagem): Para compreender e analisar as características de personalidade dos LLMs, os pesquisadores têm utilizado métodos de avaliação maduros, como os testes Big Five Personality e MBTI, para explorar a diversidade e complexidade da personalidade.

Ambiente operacional social simulado

A sociedade agente não é composta apenas por indivíduos independentes, mas inclui também o ambiente com o qual interagem. O ambiente influencia como os agentes percebem, agem e interagem. Por sua vez, os agentes também alteram o estado do ambiente através das suas ações e decisões. Para um agente individual, o ambiente inclui outros agentes autônomos, humanos e recursos disponíveis.

Aqui, os autores exploram três tipos de ambientes:

Ambientes baseados em texto: Como os LLMs dependem principalmente da linguagem como formato de entrada e saída, os ambientes baseados em texto são a plataforma operacional mais natural para os agentes. Os fenômenos sociais e as interações são descritos por meio de palavras, e o ambiente textual fornece conhecimento semântico e de base. Os agentes existem nesses mundos textuais e dependem de recursos textuais para perceber, raciocinar e agir.

Ambiente sandbox virtual: No campo da informática, um sandbox refere-se a um ambiente controlado e isolado, frequentemente usado para testes de software e análise de vírus. O ambiente sandbox virtual da sociedade agente serve como plataforma para simulação de interação social e simulação comportamental. Suas principais características incluem:

Visualização: Você pode usar interfaces gráficas 2D simples ou até mesmo modelagem 3D complexa para exibir o mundo, retratando todos os aspectos da sociedade simulada de forma intuitiva.
Escalabilidade: Vários cenários diferentes (Web, jogos, etc.) podem ser construídos e implantados para conduzir vários experimentos, proporcionando um amplo espaço para os agentes explorarem.

Ambiente Físico Real: O ambiente físico é o ambiente tangível que consiste em objetos e espaços reais nos quais os agentes observam e agem. Este ambiente introduz informações sensoriais ricas (visuais, auditivas e espaciais). Ao contrário dos ambientes virtuais, os espaços físicos exigem mais do comportamento do agente. Ou seja, o agente deve ser adaptável ao ambiente físico e gerar controle de movimento executável.

O autor dá um exemplo para explicar a complexidade do ambiente físico: imagine um agente inteligente operando um braço robótico em uma fábrica. Ao operar o braço robótico, é necessário um controle preciso da força para evitar danificar objetos de diferentes materiais; além disso, o o agente precisa estar no espaço de trabalho físico. Navegue e ajuste o caminho do movimento a tempo de evitar obstáculos e otimizar a trajetória do movimento do braço robótico.

Esses requisitos aumentam a complexidade e o desafio dos agentes no ambiente físico.

Simulação, comece!

No artigo, os autores acreditam que uma sociedade simulada deve ser aberta, persistente, situacional e organizada. A abertura permite que os agentes entrem e saiam da sociedade simulada de forma autônoma; a persistência significa que a sociedade tem uma trajetória coerente que se desenvolve ao longo do tempo; a contextualidade enfatiza a existência e a operação dos sujeitos em um ambiente específico; a organização garante que a sociedade simulada tenha um mundo físico- como regras e restrições.

Quanto ao significado da sociedade simulada, a cidade dos Agentes Generativos da Universidade de Stanford fornece um exemplo vívido para todos - a sociedade dos agentes pode ser usada para explorar as capacidades da inteligência do grupo, por exemplo, os agentes organizaram em conjunto uma festa do Dia dos Namorados; também pode ser usada acelerar a pesquisa em ciências sociais, como observar fenômenos de comunicação simulando redes sociais. Além disso, também existem estudos para explorar os valores por trás dos agentes, simulando cenários éticos de tomada de decisão, e para auxiliar a tomada de decisão, simulando o impacto das políticas na sociedade.

Além disso, o autor salientou que estas simulações também podem ter certos riscos, incluindo, mas não limitados a: fenómenos sociais prejudiciais; estereótipos e preconceitos; questões de privacidade e segurança; dependência excessiva e dependência.

Perguntas abertas prospectivas

No final do artigo, o autor também discute algumas questões abertas prospectivas e fornece alguma inspiração para os leitores pensarem sobre:

**Como a pesquisa sobre agentes inteligentes e grandes modelos de linguagem pode promover-se mutuamente e desenvolver-se em conjunto? **Os grandes modelos mostraram um forte potencial na compreensão da linguagem, na tomada de decisões e nas capacidades de generalização, e tornaram-se um papel fundamental no processo de construção de agentes.O progresso dos agentes também apresentou requisitos mais elevados para grandes modelos.

**Que desafios e preocupações os agentes baseados em LLM trarão? ** Para saber se os agentes inteligentes podem realmente ser colocados em prática, é necessária uma avaliação de segurança rigorosa para evitar danos ao mundo real. O autor resume mais ameaças potenciais, tais como: abuso ilegal, risco de desemprego, impacto no bem-estar humano, etc.

**Que oportunidades e desafios a expansão trará? **Numa sociedade simulada, aumentar o número de indivíduos pode melhorar significativamente a credibilidade e autenticidade da simulação. No entanto, à medida que o número de agentes aumenta, os problemas de comunicação e disseminação de mensagens tornar-se-ão bastante complexos e a distorção da informação, mal-entendidos ou alucinações reduzirão significativamente a eficiência de todo o sistema de simulação.

**Há um debate na Internet sobre se o Agente baseado em LLM é o caminho apropriado para AGI. **Alguns pesquisadores acreditam que grandes modelos representados pelo GPT-4 foram treinados em corpus suficiente, e os agentes construídos nesta base têm o potencial de se tornarem a chave para abrir a porta para AGI. Mas outros pesquisadores acreditam que a modelagem de linguagem auto-regressiva não mostra inteligência real porque apenas responde. Um método de modelagem mais completo, como o World Model, pode levar ao AGI.

**A evolução da inteligência de enxame. A inteligência de enxame é um processo de reunir as opiniões de muitas pessoas e convertê-las em decisões. **No entanto, a verdadeira “inteligência” será produzida simplesmente pelo aumento do número de agentes? Além disso, como coordenar agentes individuais para permitir que uma sociedade de agentes inteligentes supere o “pensamento de grupo” e os preconceitos cognitivos pessoais?

**Agente como serviço (AaaS). **Como os agentes baseados em LLM são mais complexos do que o próprio modelo grande e são mais difíceis de serem construídos localmente por pequenas e médias empresas ou indivíduos, os fornecedores de nuvem podem considerar a implementação de agentes inteligentes na forma de serviços, ou seja, agentes -como-um-serviço. Como outros serviços em nuvem, o AaaS tem o potencial de fornecer aos usuários alta flexibilidade e autoatendimento sob demanda.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
433.03K Popularidade
#
USSeeksStrategicBitcoinReserve
58.68M Popularidade
#
IsraelStrikesIranBTCPlunges
37.17K Popularidade
#
BitcoinETFOptionLimitQuadruples
975.46K Popularidade
#
#FedHoldsRateButDividesDeepen
29.75K Popularidade

Fixar

A equipe de PNL da Fudan lançou uma visão geral de 80 páginas de agentes modelo em grande escala, fornecendo uma visão geral da situação atual e do futuro dos agentes de IA em um artigo

Antecedentes da pesquisa

O nascimento de um Agente

Agente na prática: diversos cenários de aplicação

Sociedade de Agentes: Da Personalidade à Socialidade

**Simulação, comece! **

Perguntas abertas prospectivas

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar

Simulação, comece!