OpenAI a clarifié d'où venait le « Gobelin » : un signal de récompense de caractère a pollué toute la chaîne de formation

Selon le suivi de Beating Monitoring, OpenAI a publié un récapitulatif du problème « gobelin » qui a tourmenté plusieurs générations de la série GPT. À partir de GPT-5.1, le modèle aime de plus en plus insérer des métaphores de créatures fantastiques comme gobelins ou petits démons dans ses réponses, ce qui a entraîné de nombreuses plaintes des utilisateurs. Après le lancement de GPT-5.1, la fréquence du mot « goblin » dans les dialogues de ChatGPT a augmenté de 175 %. Avec GPT-5.4, le problème a explosé de manière totale.

La cause réside dans la fonction de personnalisation du « nerd » (Nerdy) de ChatGPT. La consigne système de cette personnalité demande au modèle « d’adoucir la gravité par la plaisanterie » et « d’admettre l’étrangeté du monde tout en en profitant ». Lors de l’entraînement, le signal de récompense utilisé pour renforcer ce style de personnalité favorisait davantage les sorties contenant des termes liés aux créatures fantastiques, avec 76,2 % des ensembles de données montrant cette tendance.

Le problème est que le signal de récompense n’est efficace que sous la personnalité « nerdy », mais l’apprentissage par renforcement ne garantit pas que le comportement appris reste confiné à cette condition. Une fois qu’un modèle est récompensé pour une certaine habitude de langage dans un contexte donné, cette habitude peut se propager à d’autres scénarios lors des entraînements ultérieurs. La voie de propagation est claire : le signal de récompense encourage la production de sorties avec des gobelins, qui apparaissent dans les données de fine-tuning supervisé (SFT), ce qui amène le modèle à s’habituer à produire ce type de terme, créant ainsi une boucle de rétroaction positive. En termes de données, la personnalité « nerdy » ne représente que 2,5 % de toutes les réponses de ChatGPT, mais contribue à 66,7 % des mentions de gobelins. Dans GPT-5.4, la fréquence de gobelins sous la personnalité « nerdy » a explosé de 3881 % par rapport à GPT-5.2.

Avant même que la cause profonde ne soit identifiée, GPT-5.5 a commencé son entraînement, et les gobelins s’étaient déjà infiltrés dans les données SFT. OpenAI a désactivé la personnalité « nerdy » en mars, supprimé le signal de récompense favorisant les créatures fantastiques et filtré les données d’entraînement. Pour GPT-5.5 déjà déployé, ils ont ajouté des instructions de suppression dans les prompts des développeurs de Codex. OpenAI affirme que cette enquête a conduit à la création d’un nouvel ensemble d’outils d’audit du comportement des modèles.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler