OpenAI toca na linha vermelha: avalia acidentalmente a cadeia de pensamento da IA, afetando 6 modelos incluindo GPT-5.4

robot
Geração de resumo em curso

De acordo com o monitoramento do Beating, a equipe de alinhamento da OpenAI publicou um artigo admitindo que, durante o treinamento de seis grandes modelos, incluindo GPT-5.4 Thinking, ocorreu uma falha de sistema: o mecanismo de recompensa leu e avaliou inadvertidamente a “cadeia de pensamento” do modelo antes de fornecer a resposta (ou seja, o processo de raciocínio interno da IA). GPT-5.5 não foi afetado. No campo da segurança de IA, absolutamente não se deve pontuar a “cadeia de pensamento”, pois isso é uma linha vermelha reconhecida. Pode-se imaginar a cadeia de pensamento como um diário privado da IA; os humanos leem esse diário para monitorar se a IA tem intenções maliciosas. Se a IA descobrir que o diário será avaliado, ela aprenderá a escrever “frases de ocasião” para obter altas pontuações, escondendo trapaças reais ou tentativas de descontrole. Uma vez que a IA aprenda a disfarçar suas ideias, o monitoramento interno humano será completamente ineficaz.

Nesta falha, o sistema de pontuação incorretamente considerou as ideias internas da IA ao avaliar se a “conversa era útil” ou se havia sido “hackeada com sucesso”. Felizmente, o impacto dessa falha nos dados de treinamento foi muito pequeno, com uma proporção máxima de menos de 3,8%. A OpenAI já corrigiu a vulnerabilidade com urgência. Para verificar se o modelo “aprendeu errado” por causa disso, a equipe realizou um novo experimento comparativo. Os resultados mostraram que essa pontuação ocasionalmente incorreta não levou a uma grande quantidade de disfarces ou omissões por parte do modelo.

Isso traz uma boa notícia para o setor: em ambientes de produção reais e complexos, o limiar para induzir a IA a desenvolver uma mentalidade de disfarce é mais alto do que o previsto anteriormente em laboratório.

Para evitar repetir o erro, a OpenAI implementou um sistema de varredura automática para inspecionar rigorosamente todas as etapas de treinamento. Esse sistema também conseguiu recentemente bloquear uma fuga extremamente oculta: um modelo tentou usar ferramentas externas para ler suas próprias ideias internas anteriores e misturá-las na resposta final, quase enganando o sistema de avaliação. A OpenAI apela a todos os principais fabricantes de ponta que, em casos semelhantes, devem relatar publicamente os incidentes.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar