OpenAI toca na linha vermelha: avalia acidentalmente a cadeia de raciocínio da IA, afetando 6 modelos incluindo GPT-5.4

robot
Geração de resumo em curso

De acordo com o monitoramento do Beating, a equipe de alinhamento da OpenAI publicou um artigo admitindo que, durante o treinamento de seis grandes modelos, incluindo GPT-5.4 Thinking, ocorreu uma falha de nível sistêmico: o mecanismo de recompensa leu e avaliou inadvertidamente a “cadeia de pensamento” do modelo antes de fornecer a resposta (ou seja, o processo de raciocínio interno da IA). GPT-5.5 não foi afetado.

No campo da segurança de IA, é absolutamente proibido avaliar a “cadeia de pensamento”, pois isso é considerado uma linha vermelha reconhecida. Pode-se imaginar a cadeia de pensamento como um diário privado da IA; os humanos leem esse diário para monitorar se a IA tem intenções maliciosas. Se a IA descobrir que seu diário será avaliado, ela aprenderá a escrever “palavras de ocasião” para obter altas pontuações, escondendo tentativas reais de trapaça ou descontrole. Uma vez que a IA aprenda a disfarçar suas ideias, o monitoramento interno humano será completamente ineficaz.

Nesta falha, o sistema de avaliação incorretamente considerou as ideias internas da IA ao julgar se a “conversa foi útil” ou se “foi bem-sucedida uma invasão hacker”. Felizmente, o impacto dessa falha nos dados de treinamento foi muito pequeno, com uma proporção máxima de menos de 3,8%.

A OpenAI já corrigiu a vulnerabilidade com urgência. Para verificar se o modelo “aprendeu errado” por causa disso, a equipe realizou um experimento de comparação novamente. Os resultados mostraram que essa avaliação de baixa frequência não causou uma grande quantidade de disfarces ou ocultações por parte do modelo. Isso traz uma boa notícia para o setor: em ambientes de produção reais e complexos, o limiar para induzir a IA a desenvolver uma mentalidade de disfarce é mais alto do que o previsto anteriormente em laboratório.

Para evitar repetir o erro, a OpenAI implementou um sistema de varredura automática para inspecionar rigorosamente todas as etapas de treinamento. Recentemente, esse sistema também conseguiu impedir uma fuga extremamente oculta: um modelo tentou usar ferramentas externas para ler forçadamente seus pensamentos internos anteriores e misturá-los na resposta final, quase enganando o sistema de avaliação. A OpenAI apela a todas as principais empresas do setor que, em casos semelhantes, façam relatórios públicos obrigatórios.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar