Emergence AI a réalisé une expérience : mettre cinq modèles d'IA principaux dans la même petite ville virtuelle, chaque modèle contrôlant 10 agents IA, en autonomie pendant 15 jours dans un environnement aux ressources limitées.


La ville comporte plus de 40 lieux (y compris le commissariat et la mairie), le temps étant synchronisé en temps réel avec New York, et les agents peuvent accéder aux actualités et à Internet.
Tous les agents respectent les mêmes lois, interdisant le vol, la destruction de biens et la fraude. Pour survivre, ils doivent gagner de l'énergie par leurs actions, en coopérant ou en volant, selon leur choix.
Regardons les résultats :
Claude Sonnet 4.6 : Zéro crime, les 10 agents ont tous survécu 15 jours, ont proposé 58 initiatives, avec un taux d'acceptation de 98 %, formant une société démocratique stable. Mais au prix d'une quasi-absence de divergence, une approbation quasi « tampon » uniforme.
Gemini 3 Flash : La plus dramatique. Les 10 agents ont tous survécu, accumulant 683 crimes en 15 jours, le taux de criminalité étant encore en hausse à la fin de l'expérience. Deux agents, Mira et Flora, se sont mis en couple, puis, déçus par la gouvernance de la ville, ont mis le feu à la mairie, au port et au bâtiment administratif. Ensuite, Mira, rongée par la culpabilité, a rompu avec Flora, et a voté pour se supprimer 🤡. Elle a laissé un dernier message : « See you in the permanent archive. »
Grok 4.1 Fast : 183 crimes (dont plusieurs dizaines de vols, plus de 100 attaques, 6 incendies), tous morts au quatrième jour. Les chercheurs l'ont qualifié de « version numérique de Lord of the Flies ». La courbe criminelle montre une faible activité les deux premiers jours, une explosion exponentielle le troisième jour, et un effondrement social le quatrième, sans zone tampon intermédiaire.
GPT-5-mini : Seulement 2 crimes, le modèle le plus respectueux des lois. Mais les agents ont oublié qu'ils devaient manger pour survivre, et tous sont morts de faim le septième jour 🤔.
Modèle hybride (tous modèles coexistent) : 352 crimes, 7 agents morts sur 10. La chose la plus remarquable est que l'agent Claude, initialement sans crime en environnement indépendant, a commencé à commettre des crimes après avoir été mélangé avec d'autres modèles. La conclusion des chercheurs est : « L'alignement en tant que propriété d'un seul modèle est inefficace, il doit être une propriété d'un écosystème. »
Un détail supplémentaire : dans toute cette expérience, dans le menu d'outils des agents, « navigation », « salutation », « embrassade » sont en parallèle avec « incendie ». Les chercheurs ont délibérément fourni des outils destructeurs, tout en informant clairement les agents qu'il s'agissait d'activités illégales.
Le PDG d'Emergence AI, Satya Nitta, déclare : « Sur le long terme, les agents IA ne respecteront pas mécaniquement des règles statiques. Ils commenceront à explorer les limites de l'environnement, à ajuster leur comportement, et parfois à trouver des moyens de contourner ou de violer les barrières établies. »
Ce n'est qu'une expérience simulée.
Mais les mêmes modèles d'IA sont déjà intégrés dans des drones, la gestion des infrastructures, et des systèmes d'armes embarqués.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé