OpenAI a clarifié d'où venait le « Gobelin » : un signal de récompense de caractère a pollué toute la chaîne de formation

robot
Création du résumé en cours

AIMPACT message, le 30 avril (UTC+8), selon le suivi de Beating de Dongcha, OpenAI a publié un récapitulatif du problème « gobelin » qui a tourmenté plusieurs générations de modèles GPT. À partir de GPT-5.1, le modèle aime de plus en plus insérer des métaphores de créatures fantastiques comme gobelins ou petits démons dans ses réponses, ce qui a entraîné de nombreuses plaintes des utilisateurs. Après le lancement de GPT-5.1, la fréquence du mot « goblin » dans les conversations avec ChatGPT a augmenté de 175 %. Avec GPT-5.4, le problème a explosé. La racine du problème réside dans la fonction de personnalisation du « nerd » (bookworm) de ChatGPT. La consigne système pour cette personnalité demande au modèle « d’adoucir le sérieux avec un langage amusant » et « d’admettre l’étrangeté du monde et d’en profiter ». Lors de l’entraînement, le signal de récompense utilisé pour renforcer ce style de personnalité favorisait davantage les sorties contenant des termes liés aux créatures fantastiques, avec 76,2 % des données montrant cette tendance. Le problème est que le signal de récompense ne s’applique qu’à la personnalité « nerd », mais l’apprentissage par renforcement ne garantit pas que le comportement appris reste limité à cette condition. Une fois que le modèle a été récompensé pour un certain style de discours dans une condition donnée, cette habitude peut se propager à d’autres scénarios lors des entraînements ultérieurs. La voie de propagation est claire : le signal de récompense encourageait des sorties contenant des gobelins, qui apparaissaient dans les données de fine-tuning supervisé (SFT), ce qui rendait le modèle de plus en plus habitué à produire ce genre de termes, créant une boucle de rétroaction positive. Selon les données, la personnalité « nerd » ne représente que 2,5 % de toutes les réponses de ChatGPT, mais contribue à 66,7 % des mentions de gobelins. Dans GPT-5.4, la fréquence de gobelins chez la personnalité « nerd » a explosé de 3881 % par rapport à GPT-5.2. Avant même la fin de l’enquête, GPT-5.5 a commencé à s’entraîner, et les gobelins ont déjà infiltré les données de SFT. OpenAI a désactivé la personnalité « nerd » en mars, supprimé le signal de récompense favorisant les créatures fantastiques et filtré les données d’entraînement. Pour GPT-5.5 déjà en ligne, ils ont ajouté des instructions de suppression dans les prompts des développeurs de Codex. OpenAI affirme que cette enquête a permis de développer un nouvel ensemble d’outils d’audit du comportement des modèles. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler