Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
A equipe de PNL da Fudan lançou uma visão geral de 80 páginas de agentes modelo em grande escala, fornecendo uma visão geral da situação atual e do futuro dos agentes de IA em um artigo
Fonte: Coração da Máquina
Recentemente, a Equipe de Processamento de Linguagem Natural da Universidade Fudan (FudanNLP) lançou um artigo de revisão sobre Agentes baseados em LLM. O texto completo tem 86 páginas e mais de 600 referências! A partir da história dos Agentes de IA, os autores classificaram de forma abrangente o status atual dos agentes inteligentes com base em grandes modelos de linguagem, incluindo: o histórico, a composição, os cenários de aplicação dos Agentes baseados em LLM e a muito discutida sociedade de agentes**. Ao mesmo tempo, os autores discutiram questões futuras e abertas relacionadas ao Agente, que são de grande valor para as tendências futuras de desenvolvimento de campos relacionados.
**Os membros da equipe também adicionarão um “resumo de uma frase” a cada artigo relevante. Bem-vindo ao armazém Star. **
Antecedentes da pesquisa
Há muito tempo que os investigadores têm procurado uma Inteligência Artificial Geral (AGI) que seja equivalente ou mesmo superior aos níveis humanos. Já na década de 1950, Alan Turing estendeu o conceito de “inteligência” a entidades artificiais e propôs o famoso teste de Turing. Estas entidades de inteligência artificial são frequentemente chamadas de agentes. O conceito de “agente” tem origem na filosofia e descreve uma entidade que possui desejos, crenças, intenções e capacidade de agir. No campo da inteligência artificial, este termo ganhou um novo significado: entidades inteligentes com características de autonomia, reatividade, positividade e sociabilidade.
**Não há consenso sobre a tradução chinesa do termo Agente. Alguns estudiosos o traduzem como agente, ator, agente ou agente inteligente. O “agente” e o “agente inteligente” que aparecem neste artigo referem-se ambos ao Agente. *
Desde então, o design de agentes tem sido o foco da comunidade de inteligência artificial. No entanto, os trabalhos anteriores concentraram-se principalmente no aprimoramento de habilidades específicas dos agentes, como o raciocínio simbólico ou o domínio de tarefas específicas (xadrez, Go, etc.). Esses estudos se concentram mais no projeto de algoritmos e estratégias de treinamento, ignorando o desenvolvimento das capacidades gerais inerentes ao modelo, como memória de conhecimento, planejamento de longo prazo, generalização eficaz e interação eficiente. Acontece que **aumentar as capacidades inerentes do modelo é um fator chave para promover o desenvolvimento de agentes inteligentes. **
O surgimento de grandes modelos de linguagem (LLMs) traz esperança para o desenvolvimento de agentes inteligentes. Se a rota de desenvolvimento da PNL para a AGI for dividida em cinco níveis: corpus, Internet, percepção, incorporação e atributos sociais, então o atual modelo de linguagem em larga escala atingiu o segundo nível, com entrada e saída de texto em escala da Internet. Nesta base, se for dado aos Agentes baseados no LLM espaço de percepção e espaço de ação, eles alcançarão o terceiro e quarto níveis. Além disso, quando múltiplos agentes interagem e cooperam para resolver tarefas mais complexas, ou reflectir comportamentos sociais no mundo real, têm o potencial para atingir o quinto nível – a sociedade dos agentes.
O nascimento de um Agente
Como seria um agente inteligente apoiado por um modelo grande? Inspirados pela lei da “sobrevivência do mais apto” de Darwin, os autores propuseram uma estrutura geral para agentes inteligentes baseada em grandes modelos. Se uma pessoa deseja sobreviver em sociedade, ela deve aprender a se adaptar ao meio ambiente, por isso precisa ter habilidades cognitivas e ser capaz de perceber e responder às mudanças no mundo exterior. Da mesma forma, a estrutura de agentes inteligentes também consiste em três partes: **Terminal de controle (Cérebro), Terminal de percepção (Percepção) e Terminal de ação (Ação). **
Os autores usam um exemplo para ilustrar o fluxo de trabalho do Agente baseado em LLM: quando um humano pergunta se vai chover, o fim da percepção (Percepção) converte a instrução em uma representação que os LLMs podem entender. Em seguida, o terminal de controle (Brain) inicia o raciocínio e o planejamento de ações com base no clima atual e nas previsões meteorológicas na Internet. Finalmente, a Ação responde e entrega o guarda-chuva ao humano.
Ao repetir o processo acima, o agente inteligente pode obter feedback continuamente e interagir com o ambiente.
Terminal de controle: Cérebro
Como componente central do agente inteligente, os autores apresentam suas capacidades a partir de cinco aspectos:
**Interação de linguagem natural: **A linguagem é o meio de comunicação e contém informações ricas. Graças à poderosa geração de linguagem natural e aos recursos de compreensão dos LLMs, os agentes inteligentes podem interagir com o mundo exterior em várias rodadas por meio da linguagem natural para atingir seus objetivos. Especificamente, pode ser dividido em dois aspectos:
Conhecimento: LLMs treinados com base em grandes lotes de corpus têm a capacidade de armazenar grandes quantidades de conhecimento. Além do conhecimento do idioma, o conhecimento do bom senso e o conhecimento das habilidades profissionais são componentes importantes dos Agentes baseados em LLM.
Embora os próprios LLMs ainda tenham problemas como conhecimento expirado e alucinações, algumas pesquisas existentes podem aliviá-los até certo ponto por meio da edição de conhecimento ou da chamada a bases de conhecimento externas.
Memória: Na estrutura deste artigo, o módulo de memória (Memória) armazena as observações, pensamentos e sequências de ação anteriores do agente. Através de mecanismos de memória específicos, os agentes podem efetivamente refletir e aplicar estratégias anteriores, permitindo-lhes aproveitar experiências passadas para se adaptarem a ambientes desconhecidos.
Existem três métodos comumente usados para melhorar a capacidade de memória:
Além disso, o método de recuperação de memória também é importante: somente recuperando o conteúdo apropriado o agente pode acessar as informações mais relevantes e precisas.
Raciocínio e Planejamento: A capacidade de raciocínio (Raciocínio) é crucial para que agentes inteligentes executem tarefas complexas, como tomada de decisão e análise. Específico para LLMs, é uma série de métodos de prompt representados por Chain-of-Thought (CoT). O planejamento é uma estratégia comumente usada ao enfrentar grandes desafios. Ajuda os agentes a organizar seu pensamento, definir metas e identificar etapas para alcançá-las. Na implementação específica, o planejamento pode incluir duas etapas:
**Transferibilidade e generalização: **LLMs com conhecimento mundial dotam agentes inteligentes com poderosos recursos de migração e generalização. Um bom agente não é uma base de conhecimento estática, mas também possui capacidades dinâmicas de aprendizagem:
Fim da percepção: Percepção
Os humanos percebem o mundo de uma forma multimodal, portanto os pesquisadores têm as mesmas expectativas para os Agentes baseados em LLM. A percepção multimodal pode aprofundar a compreensão do agente sobre o ambiente de trabalho e melhorar significativamente a sua versatilidade.
Entrada de texto: Como é a habilidade mais básica dos LLMs, não entrarei em detalhes aqui.
**Entrada visual:**Os próprios LLMs não têm capacidades de percepção visual e só podem compreender conteúdo de texto discreto. E a entrada visual geralmente contém muitas informações sobre o mundo, incluindo propriedades de objetos, relações espaciais, layout de cena, etc. Os métodos comuns são:
**Entrada auditiva:**A audição também é uma parte importante da percepção humana. Como os LLMs têm excelentes capacidades de chamada de ferramentas, uma ideia intuitiva é que o agente possa usar os LLMs como um centro de controle, chamando conjuntos de ferramentas existentes ou modelos especialistas em cascata para perceber informações de áudio. Além disso, o áudio também pode ser representado visualmente através de um espectrograma. Os espectrogramas podem ser usados como imagens planas para exibir informações 2D, portanto, alguns métodos de processamento visual podem ser transferidos para o campo da fala.
Outras informações: Há muito mais informações no mundo real do que apenas texto, visão e audição. Os autores esperam que, no futuro, os agentes inteligentes sejam equipados com módulos de percepção mais ricos, como tato, olfato e outros órgãos, para obter atributos mais ricos dos objetos-alvo. Ao mesmo tempo, os agentes também podem sentir claramente a temperatura, a umidade e o brilho do ambiente circundante e tomar ações mais conscientes do ambiente.
Além disso, o agente também pode ser apresentado à percepção do ambiente geral mais amplo: usando módulos de percepção maduros, como lidar, GPS e unidades de medição inercial.
Terminal móvel: Ação
Depois que o cérebro faz análises e decisões, o agente também precisa tomar ações para adaptar ou mudar o ambiente:
Saída de texto: Como a habilidade mais básica dos LLMs, não entrarei em detalhes aqui.
**Uso de ferramentas:**Embora os LLMs tenham excelentes reservas de conhecimento e capacidades profissionais, ao enfrentar problemas específicos, uma série de desafios, como problemas de robustez e alucinações, podem surgir. Ao mesmo tempo, as ferramentas, como uma extensão das capacidades do utilizador, podem fornecer ajuda em aspectos como profissionalismo, factualidade e interpretabilidade. Por exemplo, você pode usar uma calculadora para resolver problemas matemáticos e um mecanismo de busca para pesquisar informações em tempo real.
Além disso, as ferramentas também podem ampliar o espaço de ação dos agentes inteligentes. Por exemplo, ações multimodais podem ser obtidas chamando modelos especialistas, como geração de fala e geração de imagem. Portanto, como fazer com que os agentes se tornem excelentes usuários de ferramentas, ou seja, aprendam a usar as ferramentas de forma eficaz, é uma direção muito importante e promissora.
Atualmente, os principais métodos de aprendizagem de ferramentas incluem aprender com demonstrações e aprender com feedback. Além disso, meta-aprendizagem, aprendizagem de curso, etc. também podem ser usadas para fornecer aos agentes capacidades de generalização no uso de várias ferramentas. Indo um passo além, os agentes inteligentes podem aprender ainda mais como fazer ferramentas “autossuficientes”, aumentando assim a sua autonomia e independência.
**Ação incorporada: **A incorporação refere-se à capacidade de um agente compreender, transformar o ambiente e atualizar seu próprio estado durante a interação com o ambiente. A Ação Incorporada é considerada a ponte entre a inteligência virtual e a realidade física.
Os agentes tradicionais baseados em aprendizagem por reforço têm limitações na eficiência da amostra, generalização e raciocínio de problemas complexos, enquanto os Agentes baseados em LLM introduzem um rico conhecimento intrínseco de grandes modelos, permitindo que os Agentes Incorporados percebam e influenciem ativamente a física como os humanos. Dependendo do grau de autonomia do agente na tarefa ou da complexidade da Ação, podem existir as seguintes Ações atômicas:
Ao combinar essas ações atômicas, os agentes podem realizar tarefas mais complexas. Por exemplo, tarefas de controle de qualidade incorporadas, como “A melancia na cozinha é maior que a tigela?” Para resolver esse problema, o agente precisa navegar até a cozinha e derivar a resposta após observar o tamanho de ambos.
Limitada pelo alto custo do hardware do mundo físico e pela falta de conjuntos de dados incorporados, a pesquisa atual sobre ações incorporadas ainda está focada principalmente em ambientes sandbox virtuais, como a plataforma de jogos “Minecraft”. Portanto, por um lado, os autores buscam um paradigma de tarefa e um padrão de avaliação mais próximo da realidade. Por outro lado, eles também precisam de mais exploração na construção eficiente de conjuntos de dados relevantes.
Agente na prática: diversos cenários de aplicação
Atualmente, os Agentes baseados em LLM demonstraram diversidade impressionante e desempenho poderoso. Exemplos de aplicações familiares como AutoGPT, MetaGPT, CAMEL e GPT Engineer estão crescendo a uma velocidade sem precedentes.
Antes de apresentar aplicações específicas, os autores discutem os princípios de design do Agente na Prática:
Ajudar os usuários a se libertarem das tarefas diárias e do trabalho repetitivo, reduzir a pressão do trabalho humano e melhorar a eficiência na resolução de tarefas;
Os usuários não precisam mais emitir instruções explícitas de baixo nível e podem analisar, planejar e resolver problemas de forma totalmente independente;
Depois de libertar as mãos do utilizador, tente libertar o cérebro: aproveite ao máximo o seu potencial em campos científicos de ponta e conclua um trabalho inovador e exploratório.
Nesta base, a aplicação dos agentes pode ter três paradigmas:
Cenário de agente único
Agentes inteligentes que podem aceitar comandos de linguagem natural humana e realizar tarefas diárias são atualmente preferidos pelos usuários e têm alto valor prático. Os autores primeiro elaboraram seus diversos cenários de aplicação e capacidades correspondentes no cenário de aplicação de um único agente inteligente.
Neste artigo, a aplicação de um único agente inteligente é dividida nos três níveis a seguir:
Cenário multiagente
Já em 1986, Marvin Minsky fez uma previsão prospectiva. Em The Society of Mind, ele propôs uma nova teoria da inteligência, argumentando que a inteligência surge da interação de muitos agentes menores, com funções específicas. Por exemplo, alguns agentes podem ser responsáveis pela identificação de padrões, enquanto outros podem ser responsáveis pela tomada de decisões ou geração de soluções.
Esta ideia foi implementada concretamente com o surgimento da inteligência artificial distribuída. Os sistemas multiagentes (multiagentes), como uma das principais questões de pesquisa, concentram-se principalmente em como os agentes podem coordenar e colaborar de forma eficaz para resolver problemas. O autor deste artigo divide a interação entre vários agentes nas duas formas a seguir:
Interação cooperativa: Sendo o tipo mais amplamente implantado em aplicações práticas, os sistemas de agentes cooperativos podem efetivamente melhorar a eficiência das tarefas e melhorar conjuntamente a tomada de decisões. Especificamente, de acordo com as diferentes formas de cooperação, os autores subdividem as interações cooperativas em cooperação desordenada e cooperação ordenada.
Interação adversária: Agentes inteligentes interagem de maneira igualitária. Através da competição, negociação e debate, os agentes abandonam as suas crenças originais possivelmente erróneas e conduzem reflexões significativas sobre o seu próprio comportamento ou processo de raciocínio, o que acaba por levar a uma melhoria na qualidade da resposta de todo o sistema.
Cenário de interação humano-computador
A Interação Homem-Agente, como o nome sugere, é um agente inteligente que coopera com humanos para completar tarefas. Por um lado, a capacidade de aprendizagem dinâmica do agente precisa ser apoiada pela comunicação; por outro lado, o sistema atual do agente ainda é insuficiente em termos de interpretabilidade e pode ter problemas de segurança, legalidade, etc., por isso requer participação humana. e supervisão.
No artigo, os autores dividem a interação Homem-Agente nos dois modos a seguir:
Sociedade de Agentes: Da Personalidade à Socialidade
Há muito tempo, os pesquisadores sonham em construir uma “sociedade artificial interativa”. Do jogo sandbox “The Sims” ao “Metaverso”, a definição das pessoas de sociedade simulada pode ser resumida como: ambiente + indivíduos que vivem e interagem no ambiente.
No artigo, os autores utilizam um diagrama para descrever a estrutura conceitual da sociedade do Agente:
Neste quadro podemos ver:
Comportamento Social e Personalidade dos Agentes
O artigo examina a atuação dos agentes da sociedade sob a perspectiva do comportamento externo e da personalidade interna:
Comportamento social: Do ponto de vista social, o comportamento pode ser dividido em dois níveis: individual e coletivo:
Personalidade: Incluindo cognição, emoção e personalidade. Tal como os humanos desenvolvem gradualmente as suas próprias características através do processo de socialização, os agentes também exibem a chamada “inteligência semelhante à humana”, que é a formação gradual da personalidade através da interacção com grupos e ambientes.
Ambiente operacional social simulado
A sociedade agente não é composta apenas por indivíduos independentes, mas inclui também o ambiente com o qual interagem. O ambiente influencia como os agentes percebem, agem e interagem. Por sua vez, os agentes também alteram o estado do ambiente através das suas ações e decisões. Para um agente individual, o ambiente inclui outros agentes autônomos, humanos e recursos disponíveis.
Aqui, os autores exploram três tipos de ambientes:
Ambientes baseados em texto: Como os LLMs dependem principalmente da linguagem como formato de entrada e saída, os ambientes baseados em texto são a plataforma operacional mais natural para os agentes. Os fenômenos sociais e as interações são descritos por meio de palavras, e o ambiente textual fornece conhecimento semântico e de base. Os agentes existem nesses mundos textuais e dependem de recursos textuais para perceber, raciocinar e agir.
Ambiente sandbox virtual: No campo da informática, um sandbox refere-se a um ambiente controlado e isolado, frequentemente usado para testes de software e análise de vírus. O ambiente sandbox virtual da sociedade agente serve como plataforma para simulação de interação social e simulação comportamental. Suas principais características incluem:
Ambiente Físico Real: O ambiente físico é o ambiente tangível que consiste em objetos e espaços reais nos quais os agentes observam e agem. Este ambiente introduz informações sensoriais ricas (visuais, auditivas e espaciais). Ao contrário dos ambientes virtuais, os espaços físicos exigem mais do comportamento do agente. Ou seja, o agente deve ser adaptável ao ambiente físico e gerar controle de movimento executável.
O autor dá um exemplo para explicar a complexidade do ambiente físico: imagine um agente inteligente operando um braço robótico em uma fábrica. Ao operar o braço robótico, é necessário um controle preciso da força para evitar danificar objetos de diferentes materiais; além disso, o o agente precisa estar no espaço de trabalho físico. Navegue e ajuste o caminho do movimento a tempo de evitar obstáculos e otimizar a trajetória do movimento do braço robótico.
Esses requisitos aumentam a complexidade e o desafio dos agentes no ambiente físico.
**Simulação, comece! **
No artigo, os autores acreditam que uma sociedade simulada deve ser aberta, persistente, situacional e organizada. A abertura permite que os agentes entrem e saiam da sociedade simulada de forma autônoma; a persistência significa que a sociedade tem uma trajetória coerente que se desenvolve ao longo do tempo; a contextualidade enfatiza a existência e a operação dos sujeitos em um ambiente específico; a organização garante que a sociedade simulada tenha um mundo físico- como regras e restrições.
Quanto ao significado da sociedade simulada, a cidade dos Agentes Generativos da Universidade de Stanford fornece um exemplo vívido para todos - a sociedade dos agentes pode ser usada para explorar as capacidades da inteligência do grupo, por exemplo, os agentes organizaram em conjunto uma festa do Dia dos Namorados; também pode ser usada acelerar a pesquisa em ciências sociais, como observar fenômenos de comunicação simulando redes sociais. Além disso, também existem estudos para explorar os valores por trás dos agentes, simulando cenários éticos de tomada de decisão, e para auxiliar a tomada de decisão, simulando o impacto das políticas na sociedade.
Além disso, o autor salientou que estas simulações também podem ter certos riscos, incluindo, mas não limitados a: fenómenos sociais prejudiciais; estereótipos e preconceitos; questões de privacidade e segurança; dependência excessiva e dependência.
Perguntas abertas prospectivas
No final do artigo, o autor também discute algumas questões abertas prospectivas e fornece alguma inspiração para os leitores pensarem sobre:
**Como a pesquisa sobre agentes inteligentes e grandes modelos de linguagem pode promover-se mutuamente e desenvolver-se em conjunto? **Os grandes modelos mostraram um forte potencial na compreensão da linguagem, na tomada de decisões e nas capacidades de generalização, e tornaram-se um papel fundamental no processo de construção de agentes.O progresso dos agentes também apresentou requisitos mais elevados para grandes modelos.
**Que desafios e preocupações os agentes baseados em LLM trarão? ** Para saber se os agentes inteligentes podem realmente ser colocados em prática, é necessária uma avaliação de segurança rigorosa para evitar danos ao mundo real. O autor resume mais ameaças potenciais, tais como: abuso ilegal, risco de desemprego, impacto no bem-estar humano, etc.
**Que oportunidades e desafios a expansão trará? **Numa sociedade simulada, aumentar o número de indivíduos pode melhorar significativamente a credibilidade e autenticidade da simulação. No entanto, à medida que o número de agentes aumenta, os problemas de comunicação e disseminação de mensagens tornar-se-ão bastante complexos e a distorção da informação, mal-entendidos ou alucinações reduzirão significativamente a eficiência de todo o sistema de simulação.
**Há um debate na Internet sobre se o Agente baseado em LLM é o caminho apropriado para AGI. **Alguns pesquisadores acreditam que grandes modelos representados pelo GPT-4 foram treinados em corpus suficiente, e os agentes construídos nesta base têm o potencial de se tornarem a chave para abrir a porta para AGI. Mas outros pesquisadores acreditam que a modelagem de linguagem auto-regressiva não mostra inteligência real porque apenas responde. Um método de modelagem mais completo, como o World Model, pode levar ao AGI.
**A evolução da inteligência de enxame. A inteligência de enxame é um processo de reunir as opiniões de muitas pessoas e convertê-las em decisões. **No entanto, a verdadeira “inteligência” será produzida simplesmente pelo aumento do número de agentes? Além disso, como coordenar agentes individuais para permitir que uma sociedade de agentes inteligentes supere o “pensamento de grupo” e os preconceitos cognitivos pessoais?
**Agente como serviço (AaaS). **Como os agentes baseados em LLM são mais complexos do que o próprio modelo grande e são mais difíceis de serem construídos localmente por pequenas e médias empresas ou indivíduos, os fornecedores de nuvem podem considerar a implementação de agentes inteligentes na forma de serviços, ou seja, agentes -como-um-serviço. Como outros serviços em nuvem, o AaaS tem o potencial de fornecer aos usuários alta flexibilidade e autoatendimento sob demanda.