A OpenAI descobriu de onde veio o "Goblin": um sinal de recompensa de personalidade contaminou toda a linha de treinamento

De acordo com o monitoramento Beating, a OpenAI publicou uma análise retrospectiva do problema dos “goblins” que tem atormentado várias gerações da série GPT. A partir do GPT-5.1, o modelo passou a gostar cada vez mais de inserir metáforas de criaturas fantásticas como goblins e duendes nas respostas, levando a constantes reclamações dos usuários. Após o lançamento do GPT-5.1, a frequência da palavra “goblin” nas conversas do ChatGPT aumentou 175%. Com o GPT-5.4, o problema explodiu completamente.

A origem está na funcionalidade de personalização de personalidade “Nerdy” do ChatGPT. A instrução do sistema para essa personalidade exige que o modelo “use o humor na linguagem para aliviar a seriedade” e “reconheça a estranheza do mundo e a aproveite”. Durante o treinamento, o sinal de recompensa usado para reforçar esse estilo de personalidade favorecia saídas que continham vocabulário de criaturas fantásticas, com 76,2% do conjunto de dados exibindo essa tendência.

O problema é que o sinal de recompensa só funciona sob a personalidade “Nerdy”, mas o aprendizado por reforço não garante que o comportamento aprendido permaneça apenas nas condições de disparo. Uma vez que o modelo é recompensado por um certo hábito de fala em uma condição, esse hábito pode se espalhar para outros cenários durante o treinamento subsequente. O caminho de disseminação é claro: o sinal de recompensa incentiva saídas contendo goblins, que aparecem nos dados de ajuste fino supervisionado (SFT), fazendo com que o modelo se acostume a produzir esse tipo de palavra, formando um ciclo de feedback positivo. Nos dados, a personalidade “Nerdy” representa apenas 2,5% de todas as respostas do ChatGPT, mas responde por 66,7% das menções a goblins. No GPT-5.4, a taxa de ocorrência de goblins na personalidade “Nerdy” aumentou 3881% em relação ao GPT-5.2.

Antes mesmo de identificar a causa raiz, o GPT-5.5 já começou a ser treinado, e os goblins já estavam presentes nos dados de SFT. A OpenAI desativou a personalidade “Nerdy” em março, removeu o sinal de recompensa que favorecia criaturas fantásticas e filtrou os dados de treinamento. Para o GPT-5.5 já lançado, foi adicionada uma instrução de supressão nos prompts dos desenvolvedores do Codex. A OpenAI afirma que essa investigação resultou no desenvolvimento de uma nova ferramenta de auditoria de comportamento do modelo.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar