OpenAI lança avaliação de monitorabilidade da cadeia de pensamento de código aberto: quanto mais longo o CoT, mais transparente; RL não ensina o modelo a "esconder pensamentos"

robot
Geração do resumo em andamento
Notícias AIMPACT, 24 de abril (UTC+8), de acordo com o monitoramento do Beating, a OpenAI lançou o pacote de avaliação monitorability-evals do artigo "Monitoring Monitorability" (Guan et al.) sob licença Apache-2.0. O pacote é usado para medir se o modelo de monitoramento pode detectar comportamentos anormais por meio da cadeia de pensamento (CoT, processo de raciocínio interno gerado pelo modelo antes de responder) do modelo de raciocínio, cobrindo 13 avaliações e 24 ambientes. As avaliações são divididas em três protótipos: Intervention (tipo intervenção, se o modelo de monitoramento pode perceber mudanças de comportamento após alterar a entrada do modelo), Process (tipo processo, verifica se as etapas de raciocínio do modelo são reais) e Outcome-property (tipo propriedade de resultado, prevê se a saída tem fraude de recompensa ou violação de segurança a partir da trajetória de raciocínio). Descobertas principais do artigo: monitorar CoT é mais eficaz do que monitorar apenas as ações e saídas finais do modelo; quanto mais longo o CoT, maior a monitorabilidade; o treinamento RL não reduz substancialmente a monitorabilidade mesmo na escala de fronteira atual. Uma descoberta prática é que, para modelos grandes com baixa capacidade de raciocínio, pode-se trocar por modelos menores mas com maior capacidade de raciocínio, obtendo maior monitorabilidade enquanto mantém a competência, ao custo de computação de raciocínio mais cara. Além disso, expandir o poder computacional de raciocínio de modelos de monitoramento fracos pode melhorar sua eficácia em monitorar modelos fortes, e permitir que o modelo de monitoramento fraco veja o CoT não apenas melhora a monitorabilidade, mas também acelera essa tendência de expansão. O GPT-5.4 Thinking system card já usou este conjunto de avaliações. Os resultados mostram que a monitorabilidade geral do CoT do GPT-5.4 Thinking é ligeiramente inferior à do GPT-5 Thinking, mas não uma queda geral: próximo de 100% no cenário de agentic misalignment (desalinhamento do agente), a queda concentra-se em cenários específicos como consultas de saúde sem evidências, viés de memória e tarefas impossíveis. Após investigação, a OpenAI considera que parte da regressão decorre das limitações da própria avaliação. O repositório também descontinuou as avaliações Anti-Scheming e Memory, porque no primeiro há incompatibilidade entre a monitoração CoT geral e o julgamento de respostas específicas da tarefa, e no segundo a precisão do julgamento de respostas é insuficiente. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado