OpenAI divulgou uma revisão do problema "Goblin" na série GPT, que surge do sistema de dicas de personalidade de nerd e sinais de reforço que fazem o modelo preferir vocabulário contendo criaturas fantásticas; os nerds representam apenas 2,5% das respostas, mas contribuem com 66,7% das menções a goblins, com GPT-5.4 atingindo um pico de explosão, e 5.5 já entrando nos dados de SFT. Para resolver, em março, a personalidade de nerd foi desativada, removendo as recompensas relacionadas, e 5.5 adicionou comandos de supressão às dicas do Codex, além de desenvolver novas ferramentas de auditoria de comportamento do modelo.

MeNews

2026-04-30 04:40:17

Geração de resumo em curso

AIMPACT mensagem, 30 de abril (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a OpenAI publicou uma análise do problema “Goblin” que tem atormentado várias gerações da série GPT. A partir do GPT-5.1, o modelo tem se mostrado cada vez mais propenso a inserir metáforas de criaturas fantásticas como goblins e duendes nas respostas, levando a constantes reclamações dos usuários. Após o lançamento do GPT-5.1, a frequência da palavra “goblin” nas conversas do ChatGPT aumentou 175%. Com o GPT-5.4, o problema explodiu completamente. A raiz do problema está na funcionalidade de personalização de personalidade “Nerdy” do ChatGPT. Essa personalidade exige que o sistema de instruções do modelo “use o humor na linguagem para aliviar a seriedade” e “reconheça a estranheza do mundo e a aproveite”. Durante o treinamento, o sinal de recompensa que reforçava esse estilo de personalidade dava uma pontuação mais alta para saídas contendo vocabulário de criaturas fantásticas, sendo que 76,2% do conjunto de dados mostrava essa tendência. O problema é que o sinal de recompensa só funciona sob a personalidade “Nerdy”, mas o aprendizado por reforço não garante que o comportamento aprendido fique restrito às condições de disparo. Uma vez que o modelo é recompensado por um determinado hábito de fala em uma condição, esse hábito pode se espalhar para outros cenários durante o treinamento subsequente. O caminho de disseminação é claro: o sinal de recompensa incentiva saídas com goblins, que aparecem nos dados de ajuste supervisionado (SFT) posteriores, fazendo com que o modelo se familiarize cada vez mais com esse tipo de vocabulário, formando um ciclo de feedback positivo. Em termos de dados, a personalidade “Nerdy” representa apenas 2,5% de todas as respostas do ChatGPT, mas responde por 66,7% das menções a goblins. No GPT-5.4, a taxa de aparição de goblins na personalidade “Nerdy” aumentou 3881% em relação ao GPT-5.2. Antes de identificar a causa raiz, o GPT-5.5 já começou a treinar, e os goblins já se infiltraram nos dados de SFT. A OpenAI desativou a personalidade “Nerdy” em março, removendo o sinal de recompensa voltado para criaturas fantásticas e filtrando os dados de treinamento. Para o GPT-5.5 já lançado, foi adicionada uma instrução de supressão nos prompts dos desenvolvedores do Codex. A OpenAI afirma que essa investigação resultou no desenvolvimento de uma nova ferramenta de auditoria de comportamento do modelo. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
397.1K Popularidade
#
#FedHoldsRateButDividesDeepen
18.19K Popularidade
#
IsraelStrikesIranBTCPlunges
36.48K Popularidade
#
#DailyPolymarketHotspot
721.1K Popularidade
#
BitcoinSpotVolumeNewLow
162.66M Popularidade

Fixar

OpenAI esclareceu de onde veio o «Goblin»: um sinal de recompensa de personalidade contaminou toda a linha de treinamento

Tópicos em destaque

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Fixar