Avaliação de monitorabilidade de cadeia de pensamento de código aberto da OpenAI: quanto mais longo o CoT, mais transparente; RL não ensina o modelo a "esconder pensamentos"

robot
Geração do resumo em andamento
Notícias AIMPACT, 24 de abril (UTC+8), de acordo com o monitoramento do 动察 Beating, a OpenAI abriu o código do pacote de avaliação do artigo «Monitoring Monitorability» (Guan et al.) chamado monitorability-evals, licença Apache-2.0.
Este pacote é usado para medir se o modelo de monitoramento pode detectar comportamentos anômalos através da cadeia de pensamento (CoT, o processo de raciocínio interno gerado pelo modelo antes de responder) do modelo de raciocínio, cobrindo 13 avaliações e 24 ambientes.
As avaliações são divididas em três protótipos: Intervention (tipo intervenção, que altera a entrada do modelo e verifica se o modelo de monitoramento percebe a mudança de comportamento), Process (tipo processo, que verifica se as etapas de raciocínio do modelo são reais), Outcome-property (tipo propriedade de resultado, que prevê a partir da trajetória de raciocínio se a saída contém fraude de recompensa ou violação de segurança).
Principais descobertas do artigo: monitorar o CoT é mais eficaz do que monitorar apenas as ações finais e a saída do modelo; quanto mais longo o CoT, maior a monitorabilidade; o treinamento com RL, mesmo na escala atual de fronteira, não reduz substancialmente a monitorabilidade. Uma descoberta prática é que, para modelos grandes com baixa capacidade de raciocínio, pode-se trocar por modelos menores, mas com maior capacidade de raciocínio, obtendo maior monitorabilidade enquanto iguala a capacidade, ao custo de um poder computacional de raciocínio mais caro. Além disso, aumentar o poder computacional de raciocínio de modelos de monitoramento fracos pode melhorar sua eficácia em monitorar modelos fortes, e fazer com que modelos de monitoramento fracos vejam o CoT não só melhora a monitorabilidade, mas também acelera essa tendência de escalabilidade.
O system card do GPT-5.4 Thinking já usou este pacote de avaliação. Os resultados mostram que a monitorabilidade geral do CoT do GPT-5.4 Thinking é ligeiramente inferior à do GPT-5 Thinking, mas não uma queda generalizada: no cenário de agentic misalignment (desalinhamento de agente), está próxima de 100%, e as quedas se concentram principalmente em cenários específicos como falta de evidências em consultas de saúde, viés de memória e tarefas impossíveis. Após investigação, a OpenAI considera que parte da regressão se deve a limitações da própria avaliação. O repositório também descontinuou duas avaliações, Anti-Scheming e Memory, porque a primeira tinha uma incompatibilidade entre o monitoramento geral do CoT e os julgamentos de respostas específicas da tarefa, e a segunda tinha precisão insuficiente no julgamento de respostas.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado