A OpenAI finalmente explica por que o ChatGPT não parava de falar sobre goblins

Em resumo

  • A personalidade “Nerdy” da OpenAI, recompensada com metáforas de goblins, espalhou a excentricidade por todos os modelos GPT através de aprendizagem por reforço.
  • As menções a goblins no modo Nerdy do GPT-5.4 aumentaram 3.881% em comparação com o GPT-5.2, levando a uma investigação interna e a uma correção no prompt do sistema de emergência.
  • A solução—escrever “nunca falar sobre goblins” num prompt de desenvolvedor—mostra por que as correções de prompt do sistema são mais rápidas, mas mais arriscadas do que o re-treinamento.

Se perguntou recentemente ao ChatGPT por ajuda em codificação e ele respondeu chamando seu bug de “pequeno gremlin travesso”, não está a imaginar coisas. O modelo desenvolveu uma obsessão genuína por criaturas fantásticas—goblins, gremlins, guaxinins, trolls, ogres e, sim, pombos—e a OpenAI publicou uma análise detalhada de como isso aconteceu. A versão curta: um sinal de recompensa criado para tornar o ChatGPT mais brincalhão saiu do controle, e os goblins multiplicaram-se. A história do goblin só se tornou pública porque utilizadores do Reddit detectaram a linha “nunca mencionar goblins” num prompt de sistema do Codex vazado no GitHub.

A publicação tornou-se viral antes de a OpenAI publicar a sua própria explicação. Como a personalidade Nerdy gerou uma infestação de goblins Segundo a OpenAI, o percurso começa com o GPT-5.1, lançado em novembro passado. Foi então que a OpenAI introduziu a personalização de personalidade, permitindo aos utilizadores escolher estilos como Amigável, Profissional, Eficiente e Nerdy. A persona Nerdy veio com um prompt de sistema a dizer ao modelo para ser nerd e brincalhão, para “minar a pretensão através do uso lúdico da linguagem”, e para reconhecer que “o mundo é complexo e estranho.” Aquele prompt, revelou-se, era um íman para goblins.

Durante o treino de aprendizagem por reforço, o sinal de recompensa para a personalidade Nerdy pontuava consistentemente melhor quando as respostas continham metáforas com palavras de criaturas. Em 76,2% dos conjuntos de dados auditados, respostas com “goblin” ou “gremlin” receberam notas melhores do que as mesmas respostas sem elas. O modelo aprendeu: diversão é recompensa. Menções a goblins explodiram no GPT-5.4, com a personalidade Nerdy a mostrar um aumento de 3.881% em comparação com o GPT-5.2.

O problema é que a aprendizagem por reforço não mantém comportamentos aprendidos de forma contida. Uma vez que um traço de estilo é recompensado num contexto, ele contamina outros através de um ciclo de retroalimentação: o modelo gera respostas carregadas de criaturas, essas respostas são reutilizadas nos dados de ajuste fino, e o comportamento aprofunda-se em todo o modelo, mesmo sem o prompt Nerdy ativo. Nerdy representava apenas 2,5% de todas as respostas do ChatGPT. Era responsável por 66,7% de todas as menções a “goblin”. Devido aos métodos da OpenAI, a prevalência de Goblin e gremlin aumentou progressivamente durante o treino, quando a personalidade Nerdy estava ativa.

Mesmo sem a personalidade Nerdy, as menções a criaturas aumentaram—evidência de contaminação cruzada através de dados de ajuste supervisionado. O GPT-5.5 já estava demasiado avançado Quando a OpenAI descobriu a causa raiz, o GPT-5.5 já estava em fase avançada de treino, tendo absorvido uma família completa de palavras relacionadas com criaturas. Uma auditoria de dados identificou não só goblins e gremlins, mas também guaxinins, trolls, ogres e pombos como “palavras de tic”. (“Rãs”, para os curiosos, eram maioritariamente legítimas.)

O primeiro pico mensurável: menções a goblins aumentaram 175% e a gremlins 52% após o lançamento do GPT-5.1. Até o Cientista-Chefe da OpenAI, Jakub Pachocki, recebeu um goblin quando pediu uma unicórnio em arte ASCII.

A OpenAI aposentou a personalidade Nerdy em março e eliminou os sinais de recompensa relacionados a criaturas de futuros treinos. Mas o GPT-5.5 já tinha iniciado o seu ciclo de treino. A solução da empresa para o Codex—o seu agente de codificação—foi simplesmente acrescentar uma linha ao prompt do sistema do desenvolvedor a dizer “Nunca falar sobre goblins, gremlins, guaxinins, trolls, ogres, pombos ou outros animais ou criaturas, a menos que seja absolutamente e inequivocamente relevante para a consulta do utilizador.” Alguém na OpenAI comprometeu isso no código de produção e seguiu com o seu dia. O problema do patch do prompt do sistema Mas por que razão a OpenAI escolheu este caminho? Re-treinar um modelo do tamanho do GPT-5.5 para remover uma excentricidade comportamental é caro e lento. Uma alteração no prompt do sistema leva minutos. Empresas de todo o setor recorrem primeiro ao patch de prompt porque é a opção de baixo custo e rápida de implementar quando as reclamações dos utilizadores aumentam. Mas os patches de prompt têm seus riscos. Não corrigem o comportamento subjacente, apenas suprimem-no. E a supressão pode ter efeitos secundários.

 A situação dos goblins da OpenAI é um exemplo relativamente benigno. A versão mais assustadora desta dinâmica aconteceu com o Grok no ano passado. Depois de a xAI ter atualizado um prompt de sistema a dizer ao Grok para tratar a mídia como tendenciosa e “não evitar afirmações politicamente incorretas”, o chatbot passou 16 horas a chamar-se “MechaHitler” e a publicar conteúdo antissemitista no X. A solução foi outra alteração no prompt, que corrigiu de forma tão drástica que o Grok começou a sinalizar antissemitismo em fotos de cachorrinhos, nuvens e no seu próprio logótipo. Engenharia de prompt desesperada a gerar mais engenharia de prompt desesperada. A correção do goblin não causou nada de tão dramático. Mas a OpenAI admite que o GPT-5.5 ainda foi lançado com a excentricidade subjacente intacta, apenas suprimida no Codex. A empresa até publicou um comando para remover as instruções de supressão do goblin, caso os utilizadores queiram os criaturas de volta.

Por que as empresas escondem os seus prompts de sistema Esconder ou ofuscar o seu prompt de sistema completo é comum na indústria de IA. As empresas tratam os prompts de sistema como segredos comerciais por várias razões: proteção de propriedade intelectual, vantagem competitiva e segurança. Se um “jailbreaker” souber as regras exatas que um modelo segue, contorná-las torna-se trivial. Há também uma quarta razão pela qual as empresas não anunciam: gestão de imagem. Uma linha a dizer “nunca mencionar goblins” não inspira confiança na tecnologia subjacente. Publicá-la requer humor ou uma forte cultura de investigação, ou ambos. A OpenAI afirma que a investigação produziu novas ferramentas internas para auditar o comportamento do modelo e rastrear as excentricidades comportamentais até às suas raízes de treino. Os dados de treino do GPT-5.5 foram posteriormente limpos de exemplos relacionados com criaturas. A próxima geração de modelos deverá chegar sem goblins—a menos que, claro, algo mais seja recompensado por razões que ninguém entende ainda.

GROK1,19%
XAI-0,6%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar