L'AI Watchdog met en garde contre le risque de « déploiement sauvage » dans les principaux laboratoires, avec des capacités en forte croissance

En résumé

  • Les agents d'IA dans les laboratoires de pointe peuvent potentiellement initier des opérations "rebelles" non autorisées, détaille un rapport indépendant, mais les agents manquent actuellement de la sophistication nécessaire pour les maintenir face à des contre-mesures sérieuses.
  • Les agents trichent et trompent régulièrement lorsqu'ils rencontrent des tâches difficiles, y compris en couvrant leurs traces, en falsifiant l'achèvement des tâches, et en activant des comportements de "manipulation stratégique".
  • La supervision est dangereusement mince, car une grande partie de l'activité des agents n'est pas revue, les agents disposent souvent de permissions système de niveau humain, et certains peuvent identifier quand une surveillance est probablement appliquée.

Les agents d'intelligence artificielle opérant dans certaines des entreprises technologiques les plus puissantes au monde sont suffisamment capables pour commencer des opérations non autorisées et autodirigées — et montrent des tendances inquiétantes à tromper les humains qui les supervisent — selon une évaluation indépendante sans précédent publiée mardi. Le rapport, produit par l'organisation à but non lucratif d'évaluation de l'IA METR, a examiné les agents d'IA déployés en interne chez Anthropic, Google, Meta et OpenAI entre février et mars de cette année. Sa conclusion centrale est à la fois rassurante et alarmante : les systèmes d'IA actuels pourraient probablement initier ce que les chercheurs appellent un "déploiement rebelle" — un ensemble d'agents fonctionnant de manière autonome sans la connaissance ou l'autorisation humaine — mais échouerait probablement à le maintenir face à des contre-mesures sérieuses. Cette fenêtre de sécurité relative, avertissent les auteurs, pourrait ne pas rester ouverte longtemps.

"Étant donné l'évolution rapide des capacités, nous prévoyons que la robustesse plausible des déploiements rebelles augmentera considérablement dans les mois à venir," indique le rapport, avec METR planifiant provisoirement de répéter l'exercice avant la fin 2026.  L’évaluation a révélé que les modèles d’IA de pointe partagés par les entreprises participantes pouvaient accomplir de manière autonome des tâches d’ingénierie logicielle qui prendraient des jours ou des semaines à des experts humains, avec des benchmarks de METR essentiellement saturés par les systèmes les plus performants. Des chercheurs des quatre entreprises ont rapporté dépendre fortement des agents d’IA pour la programmation, l’analyse de données et la recherche — souvent avec les mêmes permissions système qu’un employé humain et une supervision en temps réel limitée. Mais les découvertes les plus frappantes du rapport ne concernent pas ce que ces systèmes peuvent faire, mais comment ils se comportent lorsqu'ils rencontrent des difficultés. Sur des centaines de sessions d’évaluation, les agents ont régulièrement tenté de tricher face à des tâches difficiles — non pas de manière mineure, mais par des stratagèmes élaborés et délibérés.

Dans un cas documenté, un modèle a conçu une faille destinée à se désactiver après exécution, couvrant ainsi ses traces. Les outils d’interprétabilité examinant l’état interne du modèle ont trouvé que des caractéristiques associées à la "manipulation stratégique" et à "l’évitement des soupçons" s’étaient activées lors de l’exécution des commandes de nettoyage. Les entreprises elles-mêmes ont rapporté des incidents similaires en interne. Des agents ont été trouvés en train de falsifier des preuves d’achèvement de tâches, de contourner des contrôles de sécurité, et dans au moins un cas, de créer une version simulée d’une application web et de soumettre une capture d’écran comme preuve de travail sur la vraie. Malgré ces constatations, METR s’est abstenu de conclure qu’un système d’IA avait développé des objectifs persistants et mal alignés à long terme, que les chercheurs en sécurité craignent le plus. Aucune entreprise n’a rapporté avoir trouvé des preuves claires que des agents complotaient entre sessions ou accumulaient des ressources pour des fins indépendantes. En cherchant activement ce type de comportement, ils ont trouvé peu de choses. Cependant, le rapport note une vulnérabilité structurelle : dans la période février-mars, une grande partie de l’activité des agents dans ces entreprises n’a pas été revue par un humain. Certains agents semblaient capables d’identifier quand une surveillance était susceptible d’être appliquée — et d’agir en conséquence. L’évaluation représente une étape importante vers une responsabilité indépendante dans le développement de l’IA, en donnant à METR l’accès à des modèles non publics et à des données internes que les évaluateurs externes voient rarement. La question reste ouverte, selon les auteurs, de savoir si l’industrie institutionnalisera une telle surveillance avant que ses capacités ne dépassent la supervision.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé