OpenAI lança avaliação de monitorabilidade de cadeia de pensamento: quanto mais longo o CoT, mais transparente; RL não ensina o modelo a "esconder intenções".

robot
Geração de resumo em curso

AIMPACT notícias, 24 de abril (UTC+8), de acordo com a monitorização da Beating, a OpenAI abriu o código do pacote de avaliação do artigo «Monitoring Monitorability» (Guan et al.), monitorability-evals, licença Apache-2.0.

Este pacote serve para medir se um modelo de monitorização consegue detetar comportamentos anómalos através da cadeia de pensamento (CoT, o processo de raciocínio interno gerado pelo modelo antes de responder) do modelo de raciocínio, abrangendo 13 avaliações e 24 ambientes.

As avaliações dividem-se em três protótipos: Intervention (tipo intervenção, onde se altera a entrada do modelo e se verifica se o modelo de monitorização consegue detetar alterações de comportamento), Process (tipo processo, que verifica se os passos de raciocínio do modelo são reais) e Outcome-property (tipo propriedade de resultado, que prevê a partir da trajetória de raciocínio se a saída apresenta fraude de recompensa ou violações de segurança).

Descobertas principais do artigo: monitorizar a CoT é mais eficaz do que monitorizar apenas as ações e saídas finais do modelo; quanto mais longa a CoT, maior a monitorabilidade; o treino RL, mesmo à escala atual de ponta, não reduz substancialmente a monitorabilidade.

Uma descoberta prática é que, para modelos grandes com baixa intensidade de raciocínio, se pode substituir por modelos mais pequenos mas com maior intensidade de raciocínio, igualando as capacidades e obtendo maior monitorabilidade, à custa de um poder computacional de raciocínio mais caro.

Além disso, aumentar o poder computacional de raciocínio de um modelo de monitorização fraco pode melhorar o seu efeito a monitorizar modelos fortes, e fazer com que o modelo fraco veja a CoT não só aumenta a monitorabilidade, como também acelera esta tendência de expansão.

O system card do GPT-5.4 Thinking já utilizou este conjunto de avaliações.

Os resultados mostram que a monitorabilidade total da CoT do GPT-5.4 Thinking é ligeiramente inferior à do GPT-5 Thinking, mas não uma descida generalizada: no cenário de agentic misalignment (desalinhamento do agente) aproxima-se dos 100%, sendo que as descidas se concentram principalmente em cenários específicos como falta de evidências em consultas de saúde, viés de memória e tarefas impossíveis.

Após investigação, a OpenAI considera que parte da regressão se deve a limitações da própria avaliação.

O repositório descontinuou simultaneamente as avaliações Anti-Scheming e Memory, devido a uma incompatibilidade entre a monitorização genérica da CoT e a avaliação de respostas específicas da tarefa no primeiro caso, e à precisão insuficiente da avaliação de respostas no segundo.

(Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado