Source : Cœur de la Machine
Récemment, l’équipe de traitement du langage naturel de l’Université de Fudan (FudanNLP) a lancé un article de synthèse sur les agents basés sur LLM. Le texte intégral fait 86 pages et contient plus de 600 références ! À partir de l’histoire des agents IA, les auteurs ont analysé de manière exhaustive l’état actuel des agents intelligents basés sur des modèles de langage à grande échelle, notamment : l’arrière-plan, la composition, les scénarios d’application des agents basés sur LLM et la société des agents très discutée*. *. Dans le même temps, les auteurs ont discuté de questions prospectives et ouvertes liées à Agent, qui sont d’une grande valeur pour les tendances de développement futures des domaines connexes.
* Lien papier :
**Les membres de l’équipe ajouteront également un « résumé d’une phrase » à chaque article pertinent, bienvenue dans l’entrepôt Star. **
Depuis longtemps, les chercheurs recherchent une intelligence générale artificielle (IAG) équivalente, voire supérieure, aux niveaux humains. Dès les années 1950, Alan Turing étendait le concept d’« intelligence » aux entités artificielles et proposait le fameux test de Turing. Ces entités d’intelligence artificielle sont souvent appelées agents. Le concept d’« agent » vient de la philosophie et décrit une entité qui a des désirs, des croyances, des intentions et la capacité d’agir. Dans le domaine de l’intelligence artificielle, ce terme a pris un nouveau sens : entités intelligentes présentant des caractéristiques d’autonomie, de réactivité, de positivité et de sociabilité.
**Il n’y a pas de consensus sur la traduction chinoise du terme Agent. Certains chercheurs le traduisent par agent, acteur, agent ou agent intelligent. Les termes « agent » et « agent intelligent » apparaissant dans cet article font tous deux référence à Agent. *
Depuis lors, la conception d’agents est au centre des préoccupations de la communauté de l’intelligence artificielle. Cependant, les travaux antérieurs se sont principalement concentrés sur l’amélioration de capacités spécifiques des agents, comme le raisonnement symbolique ou la maîtrise de tâches spécifiques (échecs, Go, etc.). Ces études se concentrent davantage sur la conception d’algorithmes et les stratégies de formation, tout en ignorant le développement des capacités générales inhérentes au modèle, telles que la mémoire des connaissances, la planification à long terme, la généralisation efficace et l’interaction efficace. Il s’avère que **l’amélioration des capacités inhérentes du modèle est un facteur clé pour promouvoir le développement ultérieur des agents intelligents. **
L’émergence des grands modèles de langage (LLM) laisse espérer le développement ultérieur d’agents intelligents. Si le parcours de développement de la PNL à l’AGI est divisé en cinq niveaux : corpus, Internet, perception, incarnation et attributs sociaux, alors le modèle de langage à grande échelle actuel a atteint le deuxième niveau, avec la saisie et la sortie de texte à l’échelle d’Internet. Sur cette base, si les agents basés sur LLM disposent d’un espace de perception et d’un espace d’action, ils atteindront les troisième et quatrième niveaux. De plus, lorsque plusieurs agents interagissent et coopèrent pour résoudre des tâches plus complexes ou refléter des comportements sociaux dans le monde réel, ils ont le potentiel d’atteindre le cinquième niveau : la société des agents.
*Les auteurs envisagent une société harmonieuse d’agents intelligents à laquelle les humains peuvent également participer. La scène est tirée du Sea Lantern Festival dans « Genshin Impact ». *
À quoi ressemblerait un agent intelligent supporté par un grand modèle ? Inspirés par la loi de Darwin sur la « survie du plus apte », les auteurs ont proposé un cadre général pour les agents intelligents basé sur de grands modèles. Si une personne veut survivre dans la société, elle doit apprendre à s’adapter à l’environnement, elle doit donc avoir des capacités cognitives et être capable de percevoir et de réagir aux changements du monde extérieur. De même, le cadre des agents intelligents se compose également de trois parties : ** Terminal de contrôle (Cerveau), terminal de perception (Perception) et terminal d’action (Action). **
Le cadre conceptuel de l’agent basé sur LLM se compose de trois composants : la fin du contrôle (Cerveau), la fin de la perception (Perception) et la fin de l’action (Action).
Les auteurs utilisent un exemple pour illustrer le flux de travail de l’agent basé sur LLM : lorsqu’un humain demande s’il va pleuvoir, la fin de la perception (Perception) convertit l’instruction en une représentation que les LLM peuvent comprendre. Ensuite, le terminal de contrôle (Brain) commence à raisonner et à planifier des actions sur la base de la météo actuelle et des prévisions météorologiques sur Internet. Finalement, l’Action répond et tend le parapluie à l’humain.
En répétant le processus ci-dessus, l’agent intelligent peut continuellement obtenir des commentaires et interagir avec l’environnement.
Terminal de contrôle : Cerveau
En tant que composant central de l’agent intelligent, les auteurs présentent ses capacités sous cinq aspects :
**Interaction en langage naturel : **La langue est le moyen de communication et contient des informations riches. Grâce aux puissantes capacités de génération et de compréhension du langage naturel des LLM, les agents intelligents peuvent interagir avec le monde extérieur pendant plusieurs tours via le langage naturel pour atteindre leurs objectifs. Concrètement, il peut être divisé en deux aspects :
Connaissances : Les LLM formés sur la base de grands lots de corpus ont la capacité de stocker d’énormes quantités de connaissances. En plus des connaissances linguistiques, les connaissances de bon sens et les connaissances professionnelles sont des éléments importants des agents basés sur le LLM.
Bien que les LLM eux-mêmes rencontrent encore des problèmes tels que des connaissances expirées et des hallucinations, certaines recherches existantes peuvent les atténuer dans une certaine mesure grâce à l’édition des connaissances ou à l’appel à des bases de connaissances externes.
Mémoire : Dans le cadre de cet article, le module de mémoire (Memory) stocke les observations, pensées et séquences d’actions passées de l’agent. Grâce à des mécanismes de mémoire spécifiques, les agents peuvent réfléchir et appliquer efficacement des stratégies antérieures, leur permettant ainsi de s’appuyer sur des expériences passées pour s’adapter à des environnements inconnus.
Il existe trois méthodes couramment utilisées pour améliorer la capacité de mémoire :
De plus, la méthode de récupération de la mémoire est également importante : ce n’est qu’en récupérant le contenu approprié que l’agent peut accéder aux informations les plus pertinentes et les plus précises.
Raisonnement et planification : La capacité de raisonnement (raisonnement) est cruciale pour que les agents intelligents puissent effectuer des tâches complexes telles que la prise de décision et l’analyse. Spécifique aux LLM, il s’agit d’une série de méthodes d’incitation représentées par la chaîne de pensée (CoT). La planification est une stratégie couramment utilisée face à de grands défis. Il aide les agents à organiser leur réflexion, à fixer des objectifs et à identifier les étapes pour atteindre ces objectifs. Dans une mise en œuvre spécifique, la planification peut comprendre deux étapes :
**Transférabilité et généralisation : **Les LLM possédant une connaissance du monde confèrent aux agents intelligents de puissantes capacités de migration et de généralisation. Un bon agent n’est pas une base de connaissances statique, mais possède également des capacités d’apprentissage dynamiques :
Fin de la perception : Perception
Les humains perçoivent le monde de manière multimodale, les chercheurs ont donc les mêmes attentes à l’égard des agents basés sur le LLM. La perception multimodale peut approfondir la compréhension de l’agent de l’environnement de travail et améliorer considérablement sa polyvalence.
Saisie de texte : En tant que capacité la plus élémentaire des LLM, je n’entrerai pas dans les détails ici.
**Saisie visuelle :**Les LLM eux-mêmes n’ont pas de capacités de perception visuelle et ne peuvent comprendre que le contenu textuel discret. Et les entrées visuelles contiennent généralement de nombreuses informations sur le monde, notamment les propriétés des objets, les relations spatiales, la disposition des scènes, etc. Les méthodes courantes sont :
Entrée auditive : L’audition est également un élément important de la perception humaine. Étant donné que les LLM ont d’excellentes capacités d’appel d’outils, une idée intuitive est que l’agent peut utiliser les LLM comme centre de contrôle, appelant des ensembles d’outils existants ou des modèles experts en cascade pour percevoir les informations audio. De plus, l’audio peut également être représenté visuellement via un spectrogramme. Les spectrogrammes peuvent être utilisés comme images plates pour afficher des informations 2D. Par conséquent, certaines méthodes de traitement visuel peuvent être transférées au domaine de la parole.
Autres entrées : L’information dans le monde réel ne se limite pas au texte, à la vue et à l’audition. Les auteurs espèrent qu’à l’avenir, les agents intelligents seront équipés de modules de perception plus riches, tels que le toucher, l’odorat et d’autres organes, pour obtenir des attributs plus riches des objets cibles. Dans le même temps, les agents peuvent également ressentir clairement la température, l’humidité et la luminosité de l’environnement et prendre des mesures plus respectueuses de l’environnement.
De plus, l’agent peut également être initié à la perception de l’environnement global plus large : en utilisant des modules de perception matures tels que le lidar, le GPS et les centrales de mesure inertielle.
Terminal mobile : action
Une fois que le cerveau a effectué des analyses et des décisions, l’agent doit également prendre des mesures pour adapter ou modifier l’environnement :
Sortie de texte : En tant que capacité la plus élémentaire des LLM, je n’entrerai pas dans les détails ici.
**Utilisation des outils :**Bien que les LLM disposent d’excellentes réserves de connaissances et de capacités professionnelles, lorsqu’ils sont confrontés à des problèmes spécifiques, une série de défis tels que des problèmes de robustesse et des hallucinations peuvent survenir. Dans le même temps, les outils, en tant qu’extension des capacités de l’utilisateur, peuvent apporter une aide sur des aspects tels que le professionnalisme, la factualité et l’interprétabilité. Par exemple, vous pouvez utiliser une calculatrice pour résoudre des problèmes mathématiques et un moteur de recherche pour rechercher des informations en temps réel.
De plus, les outils peuvent également élargir l’espace d’action des agents intelligents. Par exemple, des actions multimodales peuvent être obtenues en appelant des modèles experts tels que la génération de parole et la génération d’images. Par conséquent, comment faire en sorte que les agents deviennent d’excellents utilisateurs d’outils, c’est-à-dire apprendre à utiliser efficacement les outils, est une direction très importante et prometteuse.
Actuellement, les principales méthodes d’apprentissage des outils incluent l’apprentissage à partir de démonstrations et l’apprentissage à partir de retours d’information. De plus, le méta-apprentissage, l’apprentissage de cours, etc. peuvent également être utilisés pour fournir aux agents des capacités de généralisation dans l’utilisation de divers outils. En allant plus loin, les agents intelligents peuvent apprendre à créer des outils de manière « autosuffisante », augmentant ainsi leur autonomie et leur indépendance.
**Action incarnée : **L’incarnation fait référence à la capacité d’un agent à comprendre, transformer l’environnement et mettre à jour son propre état lors de l’interaction avec l’environnement. L’action incarnée est considérée comme le pont entre l’intelligence virtuelle et la réalité physique.
Les agents traditionnels basés sur l’apprentissage par renforcement ont des limites en termes d’efficacité des échantillons, de généralisation et de raisonnement de problèmes complexes, tandis que les agents basés sur LLM introduisent de riches connaissances intrinsèques des grands modèles, permettant aux agents incorporés de percevoir et d’influencer activement la physique comme l’environnement humain. Selon le degré d’autonomie de l’agent dans la tâche ou la complexité de l’Action, il peut y avoir les Actions atomiques suivantes :
En combinant ces actions atomiques, les agents peuvent accomplir des tâches plus complexes. Par exemple, des tâches d’assurance qualité incorporées telles que « La pastèque dans la cuisine est-elle plus grosse que le bol ? » Pour résoudre ce problème, l’agent doit se rendre dans la cuisine et obtenir la réponse après avoir observé la taille des deux.
Limitée par le coût élevé du matériel physique et le manque d’ensembles de données incarnées, la recherche actuelle sur les actions incarnées se concentre encore principalement sur les environnements de type bac à sable virtuel tels que la plateforme de jeu « Minecraft ». Par conséquent, d’une part, les auteurs attendent avec impatience un paradigme de tâches et une norme d’évaluation plus proches de la réalité, mais d’autre part, ils ont également besoin de davantage d’exploration sur la construction efficace d’ensembles de données pertinents.
Actuellement, les agents basés sur LLM ont démontré une diversité impressionnante et des performances puissantes. Des exemples d’applications familiers tels qu’AutoGPT, MetaGPT, CAMEL et GPT Engineer connaissent un essor sans précédent.
Avant de présenter des applications spécifiques, les auteurs discutent des principes de conception d’Agent in Practice :
Aidez les utilisateurs à se libérer des tâches quotidiennes et du travail répétitif, à réduire la pression du travail humain et à améliorer l’efficacité de la résolution des tâches ;
Les utilisateurs n’ont plus besoin d’émettre des instructions explicites de bas niveau et peuvent analyser, planifier et résoudre les problèmes de manière totalement indépendante ;
Après avoir libéré les mains de l’utilisateur, essayez de libérer le cerveau : exploitez pleinement son potentiel dans des domaines scientifiques de pointe et réalisez des travaux innovants et exploratoires.
Sur cette base, l’application des agents peut avoir trois paradigmes :
*Trois paradigmes d’application de l’agent basé sur LLM : agent unique, multi-agent et interaction homme-machine. *
Scénario à agent unique
Les agents intelligents capables d’accepter les commandes du langage naturel humain et d’effectuer des tâches quotidiennes sont actuellement privilégiés par les utilisateurs et ont une grande valeur pratique. Les auteurs ont d’abord développé ses divers scénarios d’application et les capacités correspondantes dans le scénario d’application d’un seul agent intelligent.
Dans cet article, l’application d’un seul agent intelligent est divisée en trois niveaux suivants :
*Trois niveaux de scénarios d’application mono-agent : orientés tâches, orientés innovation et orientés cycle de vie. *
Scénario multi-agent
Dès 1986, Marvin Minsky faisait une prédiction prospective. Dans The Society of Mind, il a proposé une nouvelle théorie de l’intelligence, affirmant que l’intelligence naît de l’interaction de nombreux agents plus petits et spécifiques à une fonction. Par exemple, certains agents peuvent être chargés d’identifier des modèles, tandis que d’autres peuvent être chargés de prendre des décisions ou de générer des solutions.
Cette idée a été mise en œuvre concrètement avec l’essor de l’intelligence artificielle distribuée. Les systèmes multi-agents (Multi-Agent), en tant que l’un des principaux thèmes de recherche, se concentrent principalement sur la manière dont les agents peuvent se coordonner et collaborer efficacement pour résoudre des problèmes. L’auteur de cet article divise l’interaction entre plusieurs agents sous les deux formes suivantes :
*Deux formes d’interaction dans des scénarios d’application multi-agents : l’interaction coopérative et l’interaction conflictuelle. *
Interaction coopérative : En tant que type le plus largement déployé dans les applications pratiques, les systèmes d’agents coopératifs peuvent améliorer efficacement l’efficacité des tâches et améliorer conjointement la prise de décision. Plus précisément, selon différentes formes de coopération, les auteurs subdivisent les interactions coopératives en coopération désordonnée et coopération ordonnée.
Interaction contradictoire : Les agents intelligents interagissent de manière réciproque. Grâce à la compétition, à la négociation et au débat, les agents abandonnent leurs croyances initiales éventuellement erronées et mènent des réflexions significatives sur leur propre comportement ou processus de raisonnement, ce qui conduit finalement à une amélioration de la qualité de réponse de l’ensemble du système.
Scénario d’interaction homme-machine
L’interaction homme-agent, comme son nom l’indique, est un agent intelligent qui coopère avec les humains pour accomplir des tâches. D’une part, la capacité d’apprentissage dynamique de l’agent doit être soutenue par la communication ; d’autre part, le système d’agent actuel est encore insuffisant en termes d’interprétabilité et peut avoir des problèmes de sécurité, de légalité, etc., ce qui nécessite une participation humaine. et surveillance.
Dans l’article, les auteurs divisent l’interaction homme-agent selon les deux modes suivants :
*Deux modes dans les scénarios d’interaction homme-machine : le mode instructeur-utilisateur et le mode Partenariat égal. *
Depuis longtemps, les chercheurs rêvent de construire une « société artificielle interactive ». Du jeu bac à sable « Les Sims » au « Métaverse », la définition que l’on se fait d’une société simulée peut se résumer ainsi : environnement + individus vivant et interagissant dans le environnement.
Dans l’article, les auteurs utilisent un diagramme pour décrire le cadre conceptuel de la société agent :
*Un cadre conceptuel pour la société des agents, divisé en deux parties clés : l’agence et l’environnement. *
Dans ce cadre on peut voir :
Comportement social et personnalité des agents
L’article examine la performance des agents dans la société du point de vue du comportement externe et de la personnalité interne :
Comportement social : D’un point de vue social, le comportement peut être divisé en deux niveaux : individuel et collectif :
Personnalité : Y compris la cognition, l’émotion et la personnalité. Tout comme les humains développent progressivement leurs propres traits à travers le processus de socialisation, les agents font également preuve de ce que l’on appelle « l’intelligence humaine », qui est la formation progressive de la personnalité par l’interaction avec des groupes et des environnements.
* Capacités cognitives : couvre le processus par lequel les agents acquièrent et comprennent les connaissances. La recherche montre que les agents basés sur le LLM peuvent faire preuve de délibération et d’intelligence similaires à celles des humains à certains égards.
Environnement opérationnel social simulé
La société agente n’est pas seulement composée d’individus indépendants, mais inclut également l’environnement avec lequel ils interagissent. L’environnement influence la façon dont les agents perçoivent, agissent et interagissent. À leur tour, les agents modifient également l’état de l’environnement par leurs actions et décisions. Pour un agent individuel, l’environnement comprend d’autres agents autonomes, les humains et les ressources disponibles.
Ici, les auteurs explorent trois types d’environnements :
Environnements basés sur du texte : Étant donné que les LLM s’appuient principalement sur la langue comme format d’entrée et de sortie, les environnements basés sur du texte constituent la plate-forme d’exploitation la plus naturelle pour les agents. Les phénomènes et interactions sociales sont décrits par des mots, et l’environnement textuel fournit des connaissances sémantiques et contextuelles. Les agents existent dans de tels mondes textuels et s’appuient sur des ressources textuelles pour percevoir, raisonner et agir.
Environnement sandbox virtuel : Dans le domaine informatique, un sandbox fait référence à un environnement contrôlé et isolé, souvent utilisé pour les tests de logiciels et l’analyse de virus. L’environnement bac à sable virtuel de la société d’agents sert de plate-forme de simulation d’interaction sociale et de simulation comportementale. Ses principales caractéristiques comprennent :
Environnement physique réel : L’environnement physique est l’environnement tangible constitué d’objets et d’espaces réels dans lesquels les agents observent et agissent. Cet environnement introduit de riches apports sensoriels (visuels, auditifs et spatiaux). Contrairement aux environnements virtuels, les espaces physiques imposent davantage d’exigences au comportement des agents. Autrement dit, l’agent doit être adaptable à l’environnement physique et générer un contrôle de mouvement exécutable.
L’auteur donne un exemple pour expliquer la complexité de l’environnement physique : imaginez un agent intelligent actionnant un bras robotique dans une usine. Lors de l’utilisation du bras robotique, un contrôle précis de la force est nécessaire pour éviter d’endommager des objets de matériaux différents ; de plus, le l’agent doit être dans l’espace de travail physique. Naviguez au milieu et ajustez la trajectoire de mouvement à temps pour éviter les obstacles et optimiser la trajectoire de mouvement du bras robotique.
Ces exigences augmentent la complexité et le défi des agents dans l’environnement physique.
Dans l’article, les auteurs estiment qu’une société simulée doit être ouverte, persistante, situationnelle et organisée. L’ouverture permet aux agents d’entrer et de sortir de la société simulée de manière autonome ; la persistance signifie que la société a une trajectoire cohérente qui se développe dans le temps ; la contextualité met l’accent sur l’existence et le fonctionnement des sujets dans un environnement spécifique ; l’organisation garantit que la société simulée possède un monde physique. comme les règles et les restrictions.
Quant à l’importance de la société simulée, la ville des agents génératifs de l’université de Stanford fournit un exemple frappant pour tout le monde : la société des agents peut être utilisée pour explorer les capacités de l’intelligence de groupe, par exemple, les agents ont organisé conjointement une fête pour la Saint-Valentin ; elle peut également être utilisée Accélérer la recherche en sciences sociales, comme l’observation des phénomènes de communication en simulant les réseaux sociaux. En outre, il existe également des études visant à explorer les valeurs derrière les agents en simulant des scénarios de prise de décision éthique et à aider à la prise de décision en simulant l’impact des politiques sur la société.
En outre, l’auteur a souligné que ces simulations peuvent également comporter certains risques, notamment : des phénomènes sociaux néfastes ; des stéréotypes et des préjugés ; des problèmes de vie privée et de sécurité ; une dépendance excessive et des addictions.
À la fin de l’article, l’auteur aborde également certaines questions ouvertes prospectives et fournit aux lecteurs quelques pistes de réflexion :
**Comment la recherche sur les agents intelligents et les grands modèles de langage peuvent-ils se promouvoir et se développer ensemble ? **Les grands modèles ont montré un fort potentiel en termes de capacités de compréhension du langage, de prise de décision et de généralisation, et sont devenus un rôle clé dans le processus de construction d’agents. Les progrès des agents ont également mis en avant des exigences plus élevées pour les grands modèles.
**Quels défis et préoccupations les agents basés sur LLM apporteront-ils ? ** La mise en œuvre réelle d’agents intelligents nécessite une évaluation de sécurité rigoureuse pour éviter de nuire au monde réel. L’auteur résume d’autres menaces potentielles, telles que : les abus illégaux, le risque de chômage, l’impact sur le bien-être humain, etc.
**Quelles opportunités et quels défis le passage à grande échelle apportera-t-il ? **Dans une société simulée, augmenter le nombre d’individus peut améliorer considérablement la crédibilité et l’authenticité de la simulation. Cependant, à mesure que le nombre d’agents augmente, les problèmes de communication et de diffusion des messages deviendront très complexes, et la distorsion de l’information, les malentendus ou les hallucinations réduiront considérablement l’efficacité de l’ensemble du système de simulation.
** Il y a un débat sur Internet pour savoir si l’agent basé sur LLM est la voie appropriée vers l’AGI. **Certains chercheurs pensent que les grands modèles représentés par GPT-4 ont été formés sur un corpus suffisant et que les agents construits sur cette base ont le potentiel de devenir la clé pour ouvrir la porte à l’AGI. Mais d’autres chercheurs pensent que la modélisation linguistique auto-régressive ne montre pas une réelle intelligence car elle ne fait que réagir. Une méthode de modélisation plus complète, telle que World Model, peut conduire à l’AGI.
** L’évolution de l’intelligence en essaim. L’intelligence en essaim est un processus consistant à recueillir les opinions de nombreuses personnes et à les convertir en décisions. **Mais la véritable « intelligence » sera-t-elle produite en augmentant simplement le nombre d’agents ? De plus, comment coordonner les agents individuels pour permettre à une société d’agents intelligents de surmonter la « pensée de groupe » et les biais cognitifs personnels ?
**Agent en tant que service (AaaS). **Étant donné que les agents basés sur LLM sont plus complexes que le grand modèle lui-même et qu’il est plus difficile pour les petites et moyennes entreprises ou les particuliers de les créer localement, les fournisseurs de cloud peuvent envisager de mettre en œuvre des agents intelligents sous forme de services, c’est-à-dire des agents -en tant que service. Comme d’autres services cloud, l’AaaS a le potentiel d’offrir aux utilisateurs une grande flexibilité et un libre-service à la demande.