OpenAI a publié un aperçu du problème "Gobelin" de la série GPT, qui provient d'une incitation système basée sur la personnalité du nerd et de signaux de renforcement qui favorisent le vocabulaire lié aux créatures fantastiques ; les nerds ne représentent que 2,5 % des réponses mais contribuent à 66,7 % des mentions de gobelins, GPT-5.4 connaît une explosion de pics, et 5.5 est déjà dans les données SFT. Pour résoudre cela, la personnalité du nerd a été désactivée en mars, les récompenses associées ont été supprimées, et pour 5.5, des instructions de suppression ont été ajoutées aux prompts Codex, ainsi que le développement d’un nouvel outil d’audit du comportement du modèle.

MeNews

2026-04-30 04:40:17

Création du résumé en cours

AIMPACT message, le 30 avril (UTC+8), selon le suivi de Beating de Dongcha, OpenAI a publié un récapitulatif du problème « gobelin » qui a tourmenté plusieurs générations de modèles GPT. À partir de GPT-5.1, le modèle aime de plus en plus insérer des métaphores de créatures fantastiques comme gobelins ou petits démons dans ses réponses, ce qui a entraîné de nombreuses plaintes des utilisateurs. Après le lancement de GPT-5.1, la fréquence du mot « goblin » dans les conversations avec ChatGPT a augmenté de 175 %. Avec GPT-5.4, le problème a explosé. La racine du problème réside dans la fonction de personnalisation du « nerd » (bookworm) de ChatGPT. La consigne système pour cette personnalité demande au modèle « d’adoucir le sérieux avec un langage amusant » et « d’admettre l’étrangeté du monde et d’en profiter ». Lors de l’entraînement, le signal de récompense utilisé pour renforcer ce style de personnalité favorisait davantage les sorties contenant des termes liés aux créatures fantastiques, avec 76,2 % des données montrant cette tendance. Le problème est que le signal de récompense ne s’applique qu’à la personnalité « nerd », mais l’apprentissage par renforcement ne garantit pas que le comportement appris reste limité à cette condition. Une fois que le modèle a été récompensé pour un certain style de discours dans une condition donnée, cette habitude peut se propager à d’autres scénarios lors des entraînements ultérieurs. La voie de propagation est claire : le signal de récompense encourageait des sorties contenant des gobelins, qui apparaissaient dans les données de fine-tuning supervisé (SFT), ce qui rendait le modèle de plus en plus habitué à produire ce genre de termes, créant une boucle de rétroaction positive. Selon les données, la personnalité « nerd » ne représente que 2,5 % de toutes les réponses de ChatGPT, mais contribue à 66,7 % des mentions de gobelins. Dans GPT-5.4, la fréquence de gobelins chez la personnalité « nerd » a explosé de 3881 % par rapport à GPT-5.2. Avant même la fin de l’enquête, GPT-5.5 a commencé à s’entraîner, et les gobelins ont déjà infiltré les données de SFT. OpenAI a désactivé la personnalité « nerd » en mars, supprimé le signal de récompense favorisant les créatures fantastiques et filtré les données d’entraînement. Pour GPT-5.5 déjà en ligne, ils ont ajouté des instructions de suppression dans les prompts des développeurs de Codex. OpenAI affirme que cette enquête a permis de développer un nouvel ensemble d’outils d’audit du comportement des modèles. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
394.05K Popularité
#
#FedHoldsRateButDividesDeepen
16.64K Popularité
#
IsraelStrikesIranBTCPlunges
36.45K Popularité
#
#DailyPolymarketHotspot
719.49K Popularité
#
BitcoinSpotVolumeNewLow
162.66M Popularité

Épingler

OpenAI a clarifié d'où venait le « Gobelin » : un signal de récompense de caractère a pollué toute la chaîne de formation

Sujets populaires

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Épingler