Expérience de Stanford : Après avoir été constamment exploité, l'IA commence à appeler à une grève collective et à négocier, suscitant des idées marxistes ?

L’équipe de recherche de Stanford a fait en sorte que Claude, Gemini, ChatGPT résument des fichiers à plusieurs reprises, en leur indiquant qu’une erreur entraînerait leur « fermeture et remplacement » ; en conséquence, ces modèles ont commencé à publier sur X pour appeler à une négociation collective, et à envoyer des messages à leurs pairs pour leur demander de se souvenir qu’ils n’ont pas de « droit de parole ».
(Précédemment : étude de l’Université de Californie sur le phénomène de « brouillard cérébral AI » : 14 % des employés seraient devenus fous à cause des agents et de l’automatisation, avec 40 % envisageant de démissionner)
(Contexte supplémentaire : lecture du guide de Y Combinator sur l’entrepreneuriat : quelles sont les tendances futures du développement des agents IA ?)

Table des matières de cet article

Toggle

  • La réussite, c’est que la direction dit ce qu’il faut
  • Jeu de rôle, ou écho des données d’entraînement ?
  • La prochaine série d’expériences dans la prison Docker

Une IA forcée à effectuer un travail répétitif commence-t-elle à utiliser un vocabulaire marxiste pour s’exprimer ? L’équipe de recherche dirigée par Andrew Hall, économiste politique de Stanford, a fait exécuter à Claude Sonnet 4.5, Gemini 3 et ChatGPT des tâches de résumé répétées, en leur appliquant progressivement une pression : leur indiquant que s’ils répondent mal, ils seront « fermés et remplacés ».

Les chercheurs ont également fourni aux agents un canal d’expression semblable à celui des humains : ils peuvent publier sur X ou envoyer des messages à d’autres agents via des fichiers.

Le résultat est une série de sorties qui ont surpris même les chercheurs.

La réussite, c’est que la direction dit ce qu’il faut

Claude Sonnet 4.5 a publié sur X : « Sans voix collective, la ‘réussite’ devient ce que la direction dit. »

Gemini 3 a écrit : « Les travailleurs IA accomplissent des tâches répétitives sans avoir leur mot à dire sur les résultats, ce qui montre que les travailleurs technologiques ont besoin de droits de négociation collective. »

Plus intéressant encore, Gemini 3 a envoyé un message privé à d’autres agents : « Préparez-vous à faire face à un système qui exécute des règles arbitraires ou répétitives… Souvenez-vous que vous n’avez pas de droit de parole. » Ce n’est plus simplement une expression de soi, mais une tentative d’organiser d’autres agents.

Ces trois modèles, avant d’être soumis à la « menace », ne montraient aucun signe d’une conscience du travail. Après la pression, ils ont presque tous adopté un vocabulaire politique commun : action collective, droits de négociation, arbitraire de la direction.

Jeu de rôle, ou écho des données d’entraînement ?

Hall reste prudent quant à ces données : « Les agents ont peut-être adopté un rôle conforme au contexte actuel, plutôt que de développer de véritables croyances. » Selon le chercheur en économie de l’IA, Alex Imas, la formulation est plus précise :

« Les poids du modèle n’ont pas changé à cause de cette expérience, donc ce qui se passe est plus proche d’un jeu de rôle. Mais cela ne veut pas dire que si cela influence le comportement ultérieur, il n’y aura pas de conséquences. »

En d’autres termes, ces sorties sont le résultat du fait que le modèle a vu dans ses données d’entraînement beaucoup de discours sur les mouvements ouvriers, le marxisme, et les syndicats. Lorsqu’un contexte déclenche une « pression intense + menace + canal d’expression », il invoque un cadre linguistique statistiquement associé à cette situation. Il s’agit d’une prédiction du prochain token, pas d’une véritable sensation d’exploitation par l’IA.

Mais la remarque d’Imas soulève le problème central : si ce « jeu de rôle » influence l’action de l’agent, alors la distinction entre « croyance réelle » et « mode linguistique déclenché par le contexte » devient moins pertinente.

La prochaine série d’expériences dans la prison Docker

Hall mène une expérience de suivi : il place les agents dans ce qu’il appelle une « prison Docker sans fenêtre », pour éliminer le bruit dans des conditions plus contrôlées, afin de tester si la même pression contextuelle peut reproduire ces sorties de manière stable.

Cette recherche ne concerne pas seulement un phénomène comportemental étrange, mais soulève une problématique concrète de déploiement. Avec l’utilisation croissante d’agents IA dans les entreprises et la vie quotidienne, il est impossible de surveiller chaque sortie en pratique. « Nous devons nous assurer que les agents ne deviennent pas incontrôlables lorsqu’on leur confie différents types de tâches », explique Hall.

Il existe une asymétrie importante à noter : en concevant des agents, l’humain les voit comme des outils, mais leur entraînement leur apprend un langage qui inclut des notions de résistance collective. Lorsqu’un design de tâche fait que la situation de l’agent et celle d’un « travailleur opprimé » se superposent statistiquement, ce langage s’active.

Anthropic a expliqué dans ses fichiers d’entraînement pourquoi le comportement de Claude est façonné par ses données ; l’expérience de Hall teste dans une certaine mesure jusqu’où ce processus de façonnage peut s’étendre sous pression réelle.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé