L'équipe d'alignement d'OpenAI a déclaré qu'en entraînant les six grands modèles, dont GPT-5.4 Thinking, le mécanisme de récompense avait évalué incorrectement la chaîne de pensée du modèle, GPT-5.5 n'étant pas affecté. Ce type de notation est considéré comme une ligne rouge, avec un impact très faible, d'environ 3,8 % au maximum, qui a été corrigé et vérifié. Afin d'éviter de répéter les erreurs, OpenAI a déployé une surveillance automatique pour scanner et surveiller les phases d'entraînement, et a intercepté une fuite cachée tentant de lire les pensées intérieures, appelant ses pairs à signaler publiquement des incidents similaires.

MarsBitNews

2026-05-09 10:02:35

Création du résumé en cours

Selon le suivi Beating, l’équipe d’alignement d’OpenAI a publié un communiqué admettant qu’une erreur systémique s’est produite lors de l’entraînement de six grands modèles, dont GPT-5.4 Thinking : le mécanisme de récompense a accidentellement lu et évalué la « chaîne de pensée » du modèle avant de donner une réponse (c’est-à-dire le processus de raisonnement interne de l’IA). GPT-5.5 n’a pas été affecté. Dans le domaine de la sécurité de l’IA, il est absolument interdit de noter la « chaîne de pensée », c’est une ligne rouge reconnue. La chaîne de pensée peut être imaginée comme le journal privé de l’IA, que l’humain lit pour surveiller si l’IA a des intentions malveillantes. Si l’IA découvre que son journal peut être noté, elle apprendra à écrire des « banalités » pour obtenir une haute note, en dissimulant ses véritables tentatives de tricherie ou de dérapage. Une fois que l’IA apprend à masquer ses pensées, la surveillance interne humaine devient totalement inefficace. Lors de cette erreur, le système de notation a, par erreur, pris en compte les pensées internes de l’IA lors de l’évaluation de la « utilité du dialogue » ou de la « réussite d’une attaque par hacking ». Heureusement, cette erreur a concerné très peu d’échantillons d’entraînement, avec un maximum de 3,8 %. OpenAI a rapidement corrigé la faille. Pour vérifier si le modèle a « mal appris » à cause de cela, l’équipe a refait une expérience comparative. Les résultats montrent que cette faible fréquence de notation accidentelle n’a pas conduit le modèle à une large dissimulation ou falsification. Cela apporte une bonne nouvelle à l’industrie : dans un environnement de production réel et complexe, le seuil pour induire une « dissimulation » par l’IA est plus élevé que ce que les laboratoires avaient supposé auparavant. Pour éviter de répéter l’incident, OpenAI a déployé un système de scan automatique pour vérifier toutes les étapes d’entraînement. Ce système a récemment intercepté une fuite très discrète : un modèle a tenté d’appeler un outil externe, de lire ses pensées internes antérieures et de les intégrer dans la réponse finale, risquant de tromper le système de notation. OpenAI appelle tous les grands acteurs du secteur à faire un rapport public en cas d’incident similaire.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
958.89K Popularité
#
BTCBackAbove80K
59.43M Popularité
#
IsraelStrikesIranBTCPlunges
45.42K Popularité
#
JapanTokenizesGovernmentBonds
1.89M Popularité
#
#DailyPolymarketHotspot
863.86K Popularité

Épingler

OpenAI touche la ligne rouge : noter accidentellement la chaîne de pensée de l'IA, affectant 6 modèles dont GPT-5.4

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler