Récemment, l’équipe de traitement du langage naturel de l’Université de Fudan (FudanNLP) a lancé un article de synthèse sur les agents basés sur LLM. Le texte intégral fait 86 pages et contient plus de 600 références ! À partir de l’histoire des agents IA, les auteurs ont analysé de manière exhaustive l’état actuel des agents intelligents basés sur des modèles de langage à grande échelle, notamment : l’arrière-plan, la composition, les scénarios d’application des agents basés sur LLM et la société des agents très discutée*. *. Dans le même temps, les auteurs ont discuté de questions prospectives et ouvertes liées à Agent, qui sont d’une grande valeur pour les tendances de développement futures des domaines connexes.

* Lien papier :

Liste des papiers des agents basés sur LLM :

**Les membres de l’équipe ajouteront également un « résumé d’une phrase » à chaque article pertinent, bienvenue dans l’entrepôt Star. **

Fond de recherche

Depuis longtemps, les chercheurs recherchent une intelligence générale artificielle (IAG) équivalente, voire supérieure, aux niveaux humains. Dès les années 1950, Alan Turing étendait le concept d’« intelligence » aux entités artificielles et proposait le fameux test de Turing. Ces entités d’intelligence artificielle sont souvent appelées agents. Le concept d’« agent » vient de la philosophie et décrit une entité qui a des désirs, des croyances, des intentions et la capacité d’agir. Dans le domaine de l’intelligence artificielle, ce terme a pris un nouveau sens : entités intelligentes présentant des caractéristiques d’autonomie, de réactivité, de positivité et de sociabilité.

**Il n’y a pas de consensus sur la traduction chinoise du terme Agent. Certains chercheurs le traduisent par agent, acteur, agent ou agent intelligent. Les termes « agent » et « agent intelligent » apparaissant dans cet article font tous deux référence à Agent. *

Depuis lors, la conception d’agents est au centre des préoccupations de la communauté de l’intelligence artificielle. Cependant, les travaux antérieurs se sont principalement concentrés sur l’amélioration de capacités spécifiques des agents, comme le raisonnement symbolique ou la maîtrise de tâches spécifiques (échecs, Go, etc.). Ces études se concentrent davantage sur la conception d’algorithmes et les stratégies de formation, tout en ignorant le développement des capacités générales inhérentes au modèle, telles que la mémoire des connaissances, la planification à long terme, la généralisation efficace et l’interaction efficace. Il s’avère que **l’amélioration des capacités inhérentes du modèle est un facteur clé pour promouvoir le développement ultérieur des agents intelligents. **

L’émergence des grands modèles de langage (LLM) laisse espérer le développement ultérieur d’agents intelligents. Si le parcours de développement de la PNL à l’AGI est divisé en cinq niveaux : corpus, Internet, perception, incarnation et attributs sociaux, alors le modèle de langage à grande échelle actuel a atteint le deuxième niveau, avec la saisie et la sortie de texte à l’échelle d’Internet. Sur cette base, si les agents basés sur LLM disposent d’un espace de perception et d’un espace d’action, ils atteindront les troisième et quatrième niveaux. De plus, lorsque plusieurs agents interagissent et coopèrent pour résoudre des tâches plus complexes ou refléter des comportements sociaux dans le monde réel, ils ont le potentiel d’atteindre le cinquième niveau : la société des agents.

*Les auteurs envisagent une société harmonieuse d’agents intelligents à laquelle les humains peuvent également participer. La scène est tirée du Sea Lantern Festival dans « Genshin Impact ». *

La naissance d’un agent

À quoi ressemblerait un agent intelligent supporté par un grand modèle ? Inspirés par la loi de Darwin sur la « survie du plus apte », les auteurs ont proposé un cadre général pour les agents intelligents basé sur de grands modèles. Si une personne veut survivre dans la société, elle doit apprendre à s’adapter à l’environnement, elle doit donc avoir des capacités cognitives et être capable de percevoir et de réagir aux changements du monde extérieur. De même, le cadre des agents intelligents se compose également de trois parties : ** Terminal de contrôle (Cerveau), terminal de perception (Perception) et terminal d’action (Action). **

Terminal de contrôle : Généralement composé de LLM, il constitue le noyau des agents intelligents. Il peut non seulement stocker de la mémoire et des connaissances, mais également assumer des fonctions indispensables telles que le traitement de l’information et la prise de décision. Il peut présenter le processus de raisonnement et de planification et bien gérer des tâches inconnues, reflétant la généralisation et la transférabilité des agents intelligents.
Fin de perception : étendez l’espace de perception de l’agent intelligent du texte pur pour inclure des champs multimodaux tels que le texte, la vision et l’audition, afin que l’agent puisse obtenir et utiliser plus efficacement les informations de l’environnement.
Terminal mobile : en plus de la sortie de texte régulière, l’agent a également la possibilité de s’incarner et d’utiliser des outils, afin de mieux s’adapter aux changements environnementaux, d’interagir avec l’environnement par le biais de commentaires et même de façonner le environnement.

Le cadre conceptuel de l’agent basé sur LLM se compose de trois composants : la fin du contrôle (Cerveau), la fin de la perception (Perception) et la fin de l’action (Action).

Les auteurs utilisent un exemple pour illustrer le flux de travail de l’agent basé sur LLM : lorsqu’un humain demande s’il va pleuvoir, la fin de la perception (Perception) convertit l’instruction en une représentation que les LLM peuvent comprendre. Ensuite, le terminal de contrôle (Brain) commence à raisonner et à planifier des actions sur la base de la météo actuelle et des prévisions météorologiques sur Internet. Finalement, l’Action répond et tend le parapluie à l’humain.

En répétant le processus ci-dessus, l’agent intelligent peut continuellement obtenir des commentaires et interagir avec l’environnement.

Terminal de contrôle : Cerveau

En tant que composant central de l’agent intelligent, les auteurs présentent ses capacités sous cinq aspects :

**Interaction en langage naturel : **La langue est le moyen de communication et contient des informations riches. Grâce aux puissantes capacités de génération et de compréhension du langage naturel des LLM, les agents intelligents peuvent interagir avec le monde extérieur pendant plusieurs tours via le langage naturel pour atteindre leurs objectifs. Concrètement, il peut être divisé en deux aspects :

Génération de texte de haute qualité : un grand nombre d’expériences d’évaluation montrent que les LLM peuvent générer un texte fluide, diversifié, nouveau et contrôlable. Malgré de faibles performances dans certaines langues, de bonnes compétences multilingues sont globalement disponibles.
Comprendre les implications : en plus du contenu exprimé intuitivement, le langage peut également transmettre des informations telles que les intentions et les préférences du locuteur. L’implication est que cela aide les agents à communiquer et à coopérer plus efficacement, et les grands modèles ont déjà montré leur potentiel à cet égard.

Connaissances : Les LLM formés sur la base de grands lots de corpus ont la capacité de stocker d’énormes quantités de connaissances. En plus des connaissances linguistiques, les connaissances de bon sens et les connaissances professionnelles sont des éléments importants des agents basés sur le LLM.

Bien que les LLM eux-mêmes rencontrent encore des problèmes tels que des connaissances expirées et des hallucinations, certaines recherches existantes peuvent les atténuer dans une certaine mesure grâce à l’édition des connaissances ou à l’appel à des bases de connaissances externes.

Mémoire : Dans le cadre de cet article, le module de mémoire (Memory) stocke les observations, pensées et séquences d’actions passées de l’agent. Grâce à des mécanismes de mémoire spécifiques, les agents peuvent réfléchir et appliquer efficacement des stratégies antérieures, leur permettant ainsi de s’appuyer sur des expériences passées pour s’adapter à des environnements inconnus.

Il existe trois méthodes couramment utilisées pour améliorer la capacité de mémoire :

Étendre la limite de longueur de l’architecture Backbone : améliorer le problème inhérent de limite de longueur de séquence des transformateurs.
Résumer : résumer la mémoire pour améliorer la capacité de l’agent à extraire les détails clés de la mémoire.
Compression : l’efficacité de la récupération de la mémoire peut être améliorée en utilisant des vecteurs ou des structures de données appropriées pour compresser la mémoire.

De plus, la méthode de récupération de la mémoire est également importante : ce n’est qu’en récupérant le contenu approprié que l’agent peut accéder aux informations les plus pertinentes et les plus précises.

Raisonnement et planification : La capacité de raisonnement (raisonnement) est cruciale pour que les agents intelligents puissent effectuer des tâches complexes telles que la prise de décision et l’analyse. Spécifique aux LLM, il s’agit d’une série de méthodes d’incitation représentées par la chaîne de pensée (CoT). La planification est une stratégie couramment utilisée face à de grands défis. Il aide les agents à organiser leur réflexion, à fixer des objectifs et à identifier les étapes pour atteindre ces objectifs. Dans une mise en œuvre spécifique, la planification peut comprendre deux étapes :

Formulation du plan : l’agent décompose les tâches complexes en sous-tâches plus gérables. Par exemple : décomposition ponctuelle puis exécution en séquence, planification et exécution étape par étape, planification multi-chemins et sélection du chemin optimal, etc. Dans certains scénarios qui nécessitent des connaissances professionnelles, les agents peuvent être intégrés aux modules Planner dans des domaines spécifiques pour améliorer les capacités.
Réflexion sur un plan : après avoir élaboré un plan, vous pouvez y réfléchir et évaluer ses forces et ses faiblesses. Ce type de réflexion repose généralement sur trois aspects : utiliser des mécanismes de feedback internes ; obtenir des feedbacks de l’interaction avec les humains ; obtenir des feedbacks de l’environnement.

**Transférabilité et généralisation : **Les LLM possédant une connaissance du monde confèrent aux agents intelligents de puissantes capacités de migration et de généralisation. Un bon agent n’est pas une base de connaissances statique, mais possède également des capacités d’apprentissage dynamiques :

Généralisation à des tâches inconnues : à mesure que la taille du modèle et les données de formation augmentent, les LLM ont développé des capacités étonnantes pour résoudre des tâches inconnues. Le grand modèle, affiné grâce aux instructions, a bien fonctionné lors du test zéro tir, obtenant des résultats aussi bons que les modèles experts sur de nombreuses tâches.
Apprentissage en contexte : les grands modèles sont non seulement capables d’apprendre par analogie à partir d’un petit nombre d’exemples dans le contexte, mais cette capacité peut également être étendue à des scènes multimodales au-delà du texte, offrant ainsi aux agents davantage de possibilités d’application dans le contexte. monde réel. De nombreuses possibilités. *Apprentissage continu : le principal défi de l’apprentissage continu est l’oubli catastrophique, c’est-à-dire que lorsque le modèle apprend une nouvelle tâche, il perd facilement les connaissances des tâches passées. Les agents intelligents dans des domaines spécialisés devraient essayer d’éviter de perdre leurs connaissances dans les domaines généraux.

Fin de la perception : Perception

Les humains perçoivent le monde de manière multimodale, les chercheurs ont donc les mêmes attentes à l’égard des agents basés sur le LLM. La perception multimodale peut approfondir la compréhension de l’agent de l’environnement de travail et améliorer considérablement sa polyvalence.

Saisie de texte : En tant que capacité la plus élémentaire des LLM, je n’entrerai pas dans les détails ici.

**Saisie visuelle :**Les LLM eux-mêmes n’ont pas de capacités de perception visuelle et ne peuvent comprendre que le contenu textuel discret. Et les entrées visuelles contiennent généralement de nombreuses informations sur le monde, notamment les propriétés des objets, les relations spatiales, la disposition des scènes, etc. Les méthodes courantes sont :

Convertir l’entrée visuelle en description textuelle correspondante (sous-titrage d’image) : elle peut être directement comprise par les LLM et a une grande interprétabilité.
Encodage et représentation des informations visuelles : le module de perception est composé du paradigme du modèle visuel de base + LLM, et le modèle peut comprendre le contenu de différentes modalités grâce à des opérations d’alignement, qui peuvent être entraînées de bout en bout.

Entrée auditive : L’audition est également un élément important de la perception humaine. Étant donné que les LLM ont d’excellentes capacités d’appel d’outils, une idée intuitive est que l’agent peut utiliser les LLM comme centre de contrôle, appelant des ensembles d’outils existants ou des modèles experts en cascade pour percevoir les informations audio. De plus, l’audio peut également être représenté visuellement via un spectrogramme. Les spectrogrammes peuvent être utilisés comme images plates pour afficher des informations 2D. Par conséquent, certaines méthodes de traitement visuel peuvent être transférées au domaine de la parole.

Autres entrées : L’information dans le monde réel ne se limite pas au texte, à la vue et à l’audition. Les auteurs espèrent qu’à l’avenir, les agents intelligents seront équipés de modules de perception plus riches, tels que le toucher, l’odorat et d’autres organes, pour obtenir des attributs plus riches des objets cibles. Dans le même temps, les agents peuvent également ressentir clairement la température, l’humidité et la luminosité de l’environnement et prendre des mesures plus respectueuses de l’environnement.

De plus, l’agent peut également être initié à la perception de l’environnement global plus large : en utilisant des modules de perception matures tels que le lidar, le GPS et les centrales de mesure inertielle.

Terminal mobile : action

Une fois que le cerveau a effectué des analyses et des décisions, l’agent doit également prendre des mesures pour adapter ou modifier l’environnement :

Sortie de texte : En tant que capacité la plus élémentaire des LLM, je n’entrerai pas dans les détails ici.

**Utilisation des outils :**Bien que les LLM disposent d’excellentes réserves de connaissances et de capacités professionnelles, lorsqu’ils sont confrontés à des problèmes spécifiques, une série de défis tels que des problèmes de robustesse et des hallucinations peuvent survenir. Dans le même temps, les outils, en tant qu’extension des capacités de l’utilisateur, peuvent apporter une aide sur des aspects tels que le professionnalisme, la factualité et l’interprétabilité. Par exemple, vous pouvez utiliser une calculatrice pour résoudre des problèmes mathématiques et un moteur de recherche pour rechercher des informations en temps réel.

De plus, les outils peuvent également élargir l’espace d’action des agents intelligents. Par exemple, des actions multimodales peuvent être obtenues en appelant des modèles experts tels que la génération de parole et la génération d’images. Par conséquent, comment faire en sorte que les agents deviennent d’excellents utilisateurs d’outils, c’est-à-dire apprendre à utiliser efficacement les outils, est une direction très importante et prometteuse.

Actuellement, les principales méthodes d’apprentissage des outils incluent l’apprentissage à partir de démonstrations et l’apprentissage à partir de retours d’information. De plus, le méta-apprentissage, l’apprentissage de cours, etc. peuvent également être utilisés pour fournir aux agents des capacités de généralisation dans l’utilisation de divers outils. En allant plus loin, les agents intelligents peuvent apprendre à créer des outils de manière « autosuffisante », augmentant ainsi leur autonomie et leur indépendance.

**Action incarnée : **L’incarnation fait référence à la capacité d’un agent à comprendre, transformer l’environnement et mettre à jour son propre état lors de l’interaction avec l’environnement. L’action incarnée est considérée comme le pont entre l’intelligence virtuelle et la réalité physique.

Les agents traditionnels basés sur l’apprentissage par renforcement ont des limites en termes d’efficacité des échantillons, de généralisation et de raisonnement de problèmes complexes, tandis que les agents basés sur LLM introduisent de riches connaissances intrinsèques des grands modèles, permettant aux agents incorporés de percevoir et d’influencer activement la physique comme l’environnement humain. Selon le degré d’autonomie de l’agent dans la tâche ou la complexité de l’Action, il peut y avoir les Actions atomiques suivantes :

L’observation peut aider les agents intelligents à se localiser dans l’environnement, à percevoir des objets et des objets et à obtenir d’autres informations environnementales ;
La manipulation consiste à effectuer certaines opérations spécifiques telles que saisir et pousser ;
La navigation nécessite que l’agent intelligent change de position en fonction de l’objectif de la tâche et mette à jour son statut en fonction des informations environnementales.

En combinant ces actions atomiques, les agents peuvent accomplir des tâches plus complexes. Par exemple, des tâches d’assurance qualité incorporées telles que « La pastèque dans la cuisine est-elle plus grosse que le bol ? » Pour résoudre ce problème, l’agent doit se rendre dans la cuisine et obtenir la réponse après avoir observé la taille des deux.

Limitée par le coût élevé du matériel physique et le manque d’ensembles de données incarnées, la recherche actuelle sur les actions incarnées se concentre encore principalement sur les environnements de type bac à sable virtuel tels que la plateforme de jeu « Minecraft ». Par conséquent, d’une part, les auteurs attendent avec impatience un paradigme de tâches et une norme d’évaluation plus proches de la réalité, mais d’autre part, ils ont également besoin de davantage d’exploration sur la construction efficace d’ensembles de données pertinents.

Agent en pratique : divers scénarios d’application

Actuellement, les agents basés sur LLM ont démontré une diversité impressionnante et des performances puissantes. Des exemples d’applications familiers tels qu’AutoGPT, MetaGPT, CAMEL et GPT Engineer connaissent un essor sans précédent.

Avant de présenter des applications spécifiques, les auteurs discutent des principes de conception d’Agent in Practice :

Aidez les utilisateurs à se libérer des tâches quotidiennes et du travail répétitif, à réduire la pression du travail humain et à améliorer l’efficacité de la résolution des tâches ;
Les utilisateurs n’ont plus besoin d’émettre des instructions explicites de bas niveau et peuvent analyser, planifier et résoudre les problèmes de manière totalement indépendante ;
Après avoir libéré les mains de l’utilisateur, essayez de libérer le cerveau : exploitez pleinement son potentiel dans des domaines scientifiques de pointe et réalisez des travaux innovants et exploratoires.

Sur cette base, l’application des agents peut avoir trois paradigmes :

*Trois paradigmes d’application de l’agent basé sur LLM : agent unique, multi-agent et interaction homme-machine. *

Scénario à agent unique

Les agents intelligents capables d’accepter les commandes du langage naturel humain et d’effectuer des tâches quotidiennes sont actuellement privilégiés par les utilisateurs et ont une grande valeur pratique. Les auteurs ont d’abord développé ses divers scénarios d’application et les capacités correspondantes dans le scénario d’application d’un seul agent intelligent.

Dans cet article, l’application d’un seul agent intelligent est divisée en trois niveaux suivants :

*Trois niveaux de scénarios d’application mono-agent : orientés tâches, orientés innovation et orientés cycle de vie. *

Dans un déploiement orienté sur les tâches, l’agent aide les utilisateurs humains à gérer les tâches quotidiennes de base. Ils doivent avoir une compréhension de base du commandement, la décomposition des tâches et la capacité d’interagir avec l’environnement. Plus précisément, selon les types de tâches existants, l’application réelle des agents peut être divisée en environnements de réseau simulés et scénarios de vie simulés.
Dans un déploiement orienté vers l’innovation, les agents peuvent démontrer le potentiel d’une enquête indépendante dans des domaines scientifiques de pointe. Bien que la complexité inhérente et le manque de données de formation dans des domaines spécialisés entravent la construction d’agents intelligents, de nombreux travaux progressent déjà dans des domaines tels que la chimie, les matériaux, l’informatique, etc.
Dans un déploiement orienté sur le cycle de vie, les agents ont la capacité d’explorer, d’acquérir et d’utiliser en permanence de nouvelles compétences dans un monde ouvert, et de survivre longtemps. Dans cette section, les auteurs prennent comme exemple le jeu “Minecraft”. Étant donné que le défi de survie du jeu peut être considéré comme un microcosme du monde réel, de nombreux chercheurs l’ont utilisé comme plate-forme unique pour développer et tester les capacités globales des agents.

Scénario multi-agent

Dès 1986, Marvin Minsky faisait une prédiction prospective. Dans The Society of Mind, il a proposé une nouvelle théorie de l’intelligence, affirmant que l’intelligence naît de l’interaction de nombreux agents plus petits et spécifiques à une fonction. Par exemple, certains agents peuvent être chargés d’identifier des modèles, tandis que d’autres peuvent être chargés de prendre des décisions ou de générer des solutions.

Cette idée a été mise en œuvre concrètement avec l’essor de l’intelligence artificielle distribuée. Les systèmes multi-agents (Multi-Agent), en tant que l’un des principaux thèmes de recherche, se concentrent principalement sur la manière dont les agents peuvent se coordonner et collaborer efficacement pour résoudre des problèmes. L’auteur de cet article divise l’interaction entre plusieurs agents sous les deux formes suivantes :

*Deux formes d’interaction dans des scénarios d’application multi-agents : l’interaction coopérative et l’interaction conflictuelle. *

Interaction coopérative : En tant que type le plus largement déployé dans les applications pratiques, les systèmes d’agents coopératifs peuvent améliorer efficacement l’efficacité des tâches et améliorer conjointement la prise de décision. Plus précisément, selon différentes formes de coopération, les auteurs subdivisent les interactions coopératives en coopération désordonnée et coopération ordonnée.

Lorsque tous les agents expriment librement leurs points de vue et opinions et coopèrent de manière non séquentielle, on parle de coopération désordonnée.
Lorsque tous les agents suivent certaines règles, comme exprimer leurs opinions un par un sous la forme d’une chaîne de montage, l’ensemble du processus de coopération est ordonné, ce qu’on appelle une coopération ordonnée.

Interaction contradictoire : Les agents intelligents interagissent de manière réciproque. Grâce à la compétition, à la négociation et au débat, les agents abandonnent leurs croyances initiales éventuellement erronées et mènent des réflexions significatives sur leur propre comportement ou processus de raisonnement, ce qui conduit finalement à une amélioration de la qualité de réponse de l’ensemble du système.

Scénario d’interaction homme-machine

L’interaction homme-agent, comme son nom l’indique, est un agent intelligent qui coopère avec les humains pour accomplir des tâches. D’une part, la capacité d’apprentissage dynamique de l’agent doit être soutenue par la communication ; d’autre part, le système d’agent actuel est encore insuffisant en termes d’interprétabilité et peut avoir des problèmes de sécurité, de légalité, etc., ce qui nécessite une participation humaine. et surveillance.

Dans l’article, les auteurs divisent l’interaction homme-agent selon les deux modes suivants :

*Deux modes dans les scénarios d’interaction homme-machine : le mode instructeur-utilisateur et le mode Partenariat égal. *

Mode instructeur-utilisateur : les humains agissent en tant qu’instructeurs, donnant des instructions et des commentaires ; les agents agissent en tant qu’exécuteurs, ajustant et optimisant progressivement en fonction des instructions. Ce modèle a été largement utilisé dans les domaines de l’éducation, de la médecine, des affaires et dans d’autres domaines.
Mode Partenariat égal : Certaines études ont observé que les agents peuvent faire preuve d’empathie dans la communication avec les humains ou participer à l’exécution de tâches sur un pied d’égalité. Les agents intelligents présentent un potentiel d’application dans la vie quotidienne et devraient être intégrés dans la société humaine à l’avenir.

Société d’agents : de la personnalité à la socialité

Depuis longtemps, les chercheurs rêvent de construire une « société artificielle interactive ». Du jeu bac à sable « Les Sims » au « Métaverse », la définition que l’on se fait d’une société simulée peut se résumer ainsi : environnement + individus vivant et interagissant dans le environnement.

Dans l’article, les auteurs utilisent un diagramme pour décrire le cadre conceptuel de la société agent :

*Un cadre conceptuel pour la société des agents, divisé en deux parties clés : l’agence et l’environnement. *

Dans ce cadre on peut voir :

Section de gauche : Au niveau individuel, les agents présentent une variété de comportements intériorisés tels que la planification, le raisonnement et la réflexion. De plus, les agents présentent des traits de personnalité intrinsèques qui couvrent les dimensions cognitives, émotionnelles et personnelles.
Partie médiane : Un seul agent peut former un groupe avec d’autres agents individuels pour présenter conjointement des comportements de groupe tels que la coopération, tels que la coopération collaborative.
Partie droite : L’environnement peut prendre la forme d’un environnement sandbox virtuel ou d’un monde physique réel. Les éléments de l’environnement comprennent les acteurs humains et diverses ressources disponibles. Pour un seul agent, d’autres agents font également partie de l’environnement.
Interaction globale : Les agents participent activement à l’ensemble du processus d’interaction en détectant l’environnement externe et en prenant des mesures.

Comportement social et personnalité des agents

L’article examine la performance des agents dans la société du point de vue du comportement externe et de la personnalité interne :

Comportement social : D’un point de vue social, le comportement peut être divisé en deux niveaux : individuel et collectif :

Le comportement individuel constitue la base du fonctionnement et du développement de l’agent lui-même. Il comprend les entrées représentées par la perception, les sorties représentées par l’action et le comportement intériorisé de l’agent.
Le comportement de foule fait référence au comportement qui se produit lorsque deux agents ou plus interagissent spontanément. Cela comprend les comportements positifs représentés par la collaboration, les comportements négatifs représentés par le conflit et les comportements neutres tels que suivre le troupeau et surveiller.

Personnalité : Y compris la cognition, l’émotion et la personnalité. Tout comme les humains développent progressivement leurs propres traits à travers le processus de socialisation, les agents font également preuve de ce que l’on appelle « l’intelligence humaine », qui est la formation progressive de la personnalité par l’interaction avec des groupes et des environnements.

* Capacités cognitives : couvre le processus par lequel les agents acquièrent et comprennent les connaissances. La recherche montre que les agents basés sur le LLM peuvent faire preuve de délibération et d’intelligence similaires à celles des humains à certains égards.

Intelligence émotionnelle : implique des sentiments subjectifs et des états émotionnels, tels que la joie, la colère, le chagrin et la joie, ainsi que la capacité de faire preuve de sympathie et d’empathie.
Caractère (représentation du personnage) : Afin de comprendre et d’analyser les caractéristiques de personnalité des LLM, les chercheurs ont utilisé des méthodes d’évaluation matures, telles que les tests Big Five Personality et MBTI, pour explorer la diversité et la complexité de la personnalité.

Environnement opérationnel social simulé

La société agente n’est pas seulement composée d’individus indépendants, mais inclut également l’environnement avec lequel ils interagissent. L’environnement influence la façon dont les agents perçoivent, agissent et interagissent. À leur tour, les agents modifient également l’état de l’environnement par leurs actions et décisions. Pour un agent individuel, l’environnement comprend d’autres agents autonomes, les humains et les ressources disponibles.

Ici, les auteurs explorent trois types d’environnements :

Environnements basés sur du texte : Étant donné que les LLM s’appuient principalement sur la langue comme format d’entrée et de sortie, les environnements basés sur du texte constituent la plate-forme d’exploitation la plus naturelle pour les agents. Les phénomènes et interactions sociales sont décrits par des mots, et l’environnement textuel fournit des connaissances sémantiques et contextuelles. Les agents existent dans de tels mondes textuels et s’appuient sur des ressources textuelles pour percevoir, raisonner et agir.

Environnement sandbox virtuel : Dans le domaine informatique, un sandbox fait référence à un environnement contrôlé et isolé, souvent utilisé pour les tests de logiciels et l’analyse de virus. L’environnement bac à sable virtuel de la société d’agents sert de plate-forme de simulation d’interaction sociale et de simulation comportementale. Ses principales caractéristiques comprennent :

Visualisation : vous pouvez utiliser des interfaces graphiques 2D simples ou même une modélisation 3D complexe pour afficher le monde, décrivant tous les aspects de la société simulée de manière intuitive.
Évolutivité : différents scénarios (Web, jeux, etc.) peuvent être construits et déployés pour mener diverses expériences, offrant ainsi un large espace à explorer aux agents.

Environnement physique réel : L’environnement physique est l’environnement tangible constitué d’objets et d’espaces réels dans lesquels les agents observent et agissent. Cet environnement introduit de riches apports sensoriels (visuels, auditifs et spatiaux). Contrairement aux environnements virtuels, les espaces physiques imposent davantage d’exigences au comportement des agents. Autrement dit, l’agent doit être adaptable à l’environnement physique et générer un contrôle de mouvement exécutable.

L’auteur donne un exemple pour expliquer la complexité de l’environnement physique : imaginez un agent intelligent actionnant un bras robotique dans une usine. Lors de l’utilisation du bras robotique, un contrôle précis de la force est nécessaire pour éviter d’endommager des objets de matériaux différents ; de plus, le l’agent doit être dans l’espace de travail physique. Naviguez au milieu et ajustez la trajectoire de mouvement à temps pour éviter les obstacles et optimiser la trajectoire de mouvement du bras robotique.

Ces exigences augmentent la complexité et le défi des agents dans l’environnement physique.

Simulation, commencez !

Dans l’article, les auteurs estiment qu’une société simulée doit être ouverte, persistante, situationnelle et organisée. L’ouverture permet aux agents d’entrer et de sortir de la société simulée de manière autonome ; la persistance signifie que la société a une trajectoire cohérente qui se développe dans le temps ; la contextualité met l’accent sur l’existence et le fonctionnement des sujets dans un environnement spécifique ; l’organisation garantit que la société simulée possède un monde physique. comme les règles et les restrictions.

Quant à l’importance de la société simulée, la ville des agents génératifs de l’université de Stanford fournit un exemple frappant pour tout le monde : la société des agents peut être utilisée pour explorer les capacités de l’intelligence de groupe, par exemple, les agents ont organisé conjointement une fête pour la Saint-Valentin ; elle peut également être utilisée Accélérer la recherche en sciences sociales, comme l’observation des phénomènes de communication en simulant les réseaux sociaux. En outre, il existe également des études visant à explorer les valeurs derrière les agents en simulant des scénarios de prise de décision éthique et à aider à la prise de décision en simulant l’impact des politiques sur la société.

En outre, l’auteur a souligné que ces simulations peuvent également comporter certains risques, notamment : des phénomènes sociaux néfastes ; des stéréotypes et des préjugés ; des problèmes de vie privée et de sécurité ; une dépendance excessive et des addictions.

Questions ouvertes prospectives

À la fin de l’article, l’auteur aborde également certaines questions ouvertes prospectives et fournit aux lecteurs quelques pistes de réflexion :

**Comment la recherche sur les agents intelligents et les grands modèles de langage peuvent-ils se promouvoir et se développer ensemble ? **Les grands modèles ont montré un fort potentiel en termes de capacités de compréhension du langage, de prise de décision et de généralisation, et sont devenus un rôle clé dans le processus de construction d’agents. Les progrès des agents ont également mis en avant des exigences plus élevées pour les grands modèles.

**Quels défis et préoccupations les agents basés sur LLM apporteront-ils ? ** La mise en œuvre réelle d’agents intelligents nécessite une évaluation de sécurité rigoureuse pour éviter de nuire au monde réel. L’auteur résume d’autres menaces potentielles, telles que : les abus illégaux, le risque de chômage, l’impact sur le bien-être humain, etc.

**Quelles opportunités et quels défis le passage à grande échelle apportera-t-il ? **Dans une société simulée, augmenter le nombre d’individus peut améliorer considérablement la crédibilité et l’authenticité de la simulation. Cependant, à mesure que le nombre d’agents augmente, les problèmes de communication et de diffusion des messages deviendront très complexes, et la distorsion de l’information, les malentendus ou les hallucinations réduiront considérablement l’efficacité de l’ensemble du système de simulation.

** Il y a un débat sur Internet pour savoir si l’agent basé sur LLM est la voie appropriée vers l’AGI. **Certains chercheurs pensent que les grands modèles représentés par GPT-4 ont été formés sur un corpus suffisant et que les agents construits sur cette base ont le potentiel de devenir la clé pour ouvrir la porte à l’AGI. Mais d’autres chercheurs pensent que la modélisation linguistique auto-régressive ne montre pas une réelle intelligence car elle ne fait que réagir. Une méthode de modélisation plus complète, telle que World Model, peut conduire à l’AGI.

** L’évolution de l’intelligence en essaim. L’intelligence en essaim est un processus consistant à recueillir les opinions de nombreuses personnes et à les convertir en décisions. **Mais la véritable « intelligence » sera-t-elle produite en augmentant simplement le nombre d’agents ? De plus, comment coordonner les agents individuels pour permettre à une société d’agents intelligents de surmonter la « pensée de groupe » et les biais cognitifs personnels ?

**Agent en tant que service (AaaS). **Étant donné que les agents basés sur LLM sont plus complexes que le grand modèle lui-même et qu’il est plus difficile pour les petites et moyennes entreprises ou les particuliers de les créer localement, les fournisseurs de cloud peuvent envisager de mettre en œuvre des agents intelligents sous forme de services, c’est-à-dire des agents -en tant que service. Comme d’autres services cloud, l’AaaS a le potentiel d’offrir aux utilisateurs une grande flexibilité et un libre-service à la demande.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire