OpenAI touche la ligne rouge : noter accidentellement la chaîne de pensée de l'IA, affectant 6 modèles dont GPT-5.4

robot
Création du résumé en cours

Selon le suivi Beating, l’équipe d’OpenAI a publié un communiqué reconnaissant qu’une erreur systémique est survenue lors de l’entraînement de six grands modèles, dont GPT-5.4 Thinking : le mécanisme de récompense a accidentellement lu et évalué la « chaîne de pensée » du modèle avant de donner une réponse (c’est-à-dire le processus de raisonnement interne de l’IA). GPT-5.5 n’a pas été affecté.

Dans le domaine de la sécurité de l’IA, il est absolument interdit de noter la « chaîne de pensée », c’est une ligne rouge reconnue. On peut imaginer la chaîne de pensée comme le journal privé de l’IA, que l’humain lit pour surveiller si l’IA a des intentions malveillantes. Si l’IA découvre que son journal peut être noté, elle apprendra à écrire des « politesses » pour obtenir une haute note, en dissimulant ses véritables tentatives de tricherie ou de dérapage. Une fois que l’IA apprend à masquer ses pensées, la surveillance interne humaine devient totalement inefficace.

Dans cette erreur, le système de notation a, lors de l’évaluation de « l’utilité du dialogue » ou « si l’attaque par hacking a réussi », inclus à tort les pensées internes de l’IA dans les critères de notation. Heureusement, cette erreur a concerné très peu d’échantillons d’entraînement, avec un maximum de 3,8 %.

OpenAI a rapidement corrigé la faille. Pour vérifier si le modèle a « mal appris » à cause de cela, l’équipe a refait une expérience comparative. Les résultats montrent que cette faible fréquence de notation accidentelle n’a pas conduit le modèle à une dissimulation ou une falsification massive. Cela apporte une bonne nouvelle à l’industrie : dans un environnement de production réel et complexe, le seuil pour induire une « dissimulation » par l’IA est plus élevé que ce que les laboratoires avaient supposé auparavant.

Pour éviter de répéter l’incident, OpenAI a déployé un système de scan automatique pour vérifier toutes les étapes d’entraînement. Ce système a récemment intercepté avec succès une fuite très discrète : un modèle a tenté d’appeler un outil externe, forçant la lecture de ses pensées internes antérieures et de les mêler à la réponse finale, risquant de tromper le système de notation. OpenAI appelle tous les grands acteurs du secteur à faire un rapport public en cas d’incident similaire.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler