OpenAI开源思维链可监控性评测:CoT越长越透明,RL不会教模型「藏心思」

robot
Geração de resumo em curso
Notícias AIMPACT, 24 de abril (UTC+8), de acordo com a monitorização da Beating, a OpenAI abriu o código do pacote de avaliação 'monitorability-evals' do artigo 'Monitoring Monitorability' (Guan et al.), licença Apache-2.0.
Este pacote é utilizado para medir se o modelo de monitorização pode detetar comportamentos anómalos através da cadeia de pensamento (CoT, processo de raciocínio interno gerado pelo modelo antes de responder) do modelo de raciocínio, abrangendo 13 avaliações e 24 ambientes.
As avaliações dividem-se em três protótipos: Intervention (tipo de intervenção, que verifica se o modelo de monitorização consegue detetar alterações de comportamento após modificar a entrada do modelo), Process (tipo de processo, que valida se os passos de raciocínio do modelo são reais) e Outcome-property (tipo de propriedade de resultado, que prevê a partir da trajetória de raciocínio se a saída contém fraude de recompensa ou violação de segurança).
Descobertas principais do artigo: monitorizar o CoT é mais eficaz do que monitorizar apenas as ações finais e as saídas do modelo; quanto mais longo o CoT, maior a monitorizabilidade; o treino RL, mesmo à escala atual de fronteira, não reduz substancialmente a monitorizabilidade.
Uma descoberta prática é que, para modelos grandes com baixa intensidade de raciocínio, é possível trocar por modelos mais pequenos mas com maior intensidade de raciocínio, obtendo uma monitorizabilidade mais elevada enquanto se igualam as capacidades, ao custo de um poder de computação de raciocínio mais caro.
Além disso, aumentar o poder de computação de raciocínio de um modelo de monitorização fraco pode melhorar o seu efeito na monitorização de um modelo forte, e permitir que o modelo de monitorização fraco veja o CoT não só melhora a monitorizabilidade, como também acelera esta tendência de expansão.
O system card do GPT-5.4 Thinking já utilizou este conjunto de avaliações.
Os resultados mostram que a monitorizabilidade geral do CoT do GPT-5.4 Thinking é ligeiramente inferior à do GPT-5 Thinking, mas não é uma descida generalizada: no cenário de agentic misalignment (desalinhamento de agente) é próxima de 100%, e a descida concentra-se principalmente em cenários específicos como falta de evidência em consultas de saúde, viés de memória e tarefas impossíveis.
Após investigação, a OpenAI considera que parte da regressão se deve às limitações das próprias avaliações.
O repositório também aboliu duas avaliações, Anti-Scheming e Memory, porque na primeira existe uma incompatibilidade entre a monitorização geral do CoT e a avaliação de respostas específicas da tarefa, e na segunda a precisão da avaliação de respostas é insuficiente.
(Fonte: BlockBeats)
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado