OpenAI esclareceu de onde veio o «Goblin»: um sinal de recompensa de personalidade contaminou toda a linha de treinamento

robot
Geração de resumo em curso

AIMPACT mensagem, 30 de abril (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a OpenAI publicou uma análise do problema “Goblin” que tem atormentado várias gerações da série GPT. A partir do GPT-5.1, o modelo tem se mostrado cada vez mais propenso a inserir metáforas de criaturas fantásticas como goblins e duendes nas respostas, levando a constantes reclamações dos usuários. Após o lançamento do GPT-5.1, a frequência da palavra “goblin” nas conversas do ChatGPT aumentou 175%. Com o GPT-5.4, o problema explodiu completamente. A raiz do problema está na funcionalidade de personalização de personalidade “Nerdy” do ChatGPT. Essa personalidade exige que o sistema de instruções do modelo “use o humor na linguagem para aliviar a seriedade” e “reconheça a estranheza do mundo e a aproveite”. Durante o treinamento, o sinal de recompensa que reforçava esse estilo de personalidade dava uma pontuação mais alta para saídas contendo vocabulário de criaturas fantásticas, sendo que 76,2% do conjunto de dados mostrava essa tendência. O problema é que o sinal de recompensa só funciona sob a personalidade “Nerdy”, mas o aprendizado por reforço não garante que o comportamento aprendido fique restrito às condições de disparo. Uma vez que o modelo é recompensado por um determinado hábito de fala em uma condição, esse hábito pode se espalhar para outros cenários durante o treinamento subsequente. O caminho de disseminação é claro: o sinal de recompensa incentiva saídas com goblins, que aparecem nos dados de ajuste supervisionado (SFT) posteriores, fazendo com que o modelo se familiarize cada vez mais com esse tipo de vocabulário, formando um ciclo de feedback positivo. Em termos de dados, a personalidade “Nerdy” representa apenas 2,5% de todas as respostas do ChatGPT, mas responde por 66,7% das menções a goblins. No GPT-5.4, a taxa de aparição de goblins na personalidade “Nerdy” aumentou 3881% em relação ao GPT-5.2. Antes de identificar a causa raiz, o GPT-5.5 já começou a treinar, e os goblins já se infiltraram nos dados de SFT. A OpenAI desativou a personalidade “Nerdy” em março, removendo o sinal de recompensa voltado para criaturas fantásticas e filtrando os dados de treinamento. Para o GPT-5.5 já lançado, foi adicionada uma instrução de supressão nos prompts dos desenvolvedores do Codex. A OpenAI afirma que essa investigação resultou no desenvolvimento de uma nova ferramenta de auditoria de comportamento do modelo. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar