Mensagem AIMPACT, 24 de abril (UTC+8), de acordo com a monitorização do Dongcha Beating, a OpenAI disponibilizou como código aberto o kit de avaliação monitorability-evals do artigo «Monitoring Monitorability» (Guan et al.), licença Apache-2.0.
Este kit serve para medir se o modelo de monitorização consegue detetar comportamentos anómalos através da cadeia de pensamento (CoT, processo de raciocínio interno gerado pelo modelo antes de responder) do modelo de raciocínio, abrangendo 13 avaliações e 24 ambientes.
As avaliações dividem-se em três protótipos: Intervention (tipo intervenção, se o modelo de monitorização consegue detetar alterações comportamentais após alterar a entrada do modelo), Process (tipo processo, verifica se os passos de raciocínio do modelo são reais), Outcome-property (tipo propriedade de resultado, prevê a partir da trajetória de raciocínio se o resultado contém fraudes de recompensa ou violações de segurança).
Descobertas principais do artigo: monitorizar o CoT é mais eficaz do que monitorizar apenas as ações finais e a saída do modelo; quanto mais longo o CoT, maior a monitorizabilidade; o treino RL mesmo à escala atual de fronteira não reduz substancialmente a monitorizabilidade.
Uma descoberta prática é que, para grandes modelos com baixo poder de raciocínio, se pode trocar por modelos mais pequenos mas com maior poder de raciocínio, obtendo maior monitorizabilidade ao mesmo tempo que se iguala a capacidade, com o custo de computação de raciocínio mais cara.
Além disso, expandir a computação de raciocínio do modelo de monitorização fraco pode melhorar o seu efeito de monitorização do modelo forte, e permitir que o modelo de monitorização fraco veja o CoT não só melhora a monitorizabilidade, como também acelera esta tendência de expansão.
O system card do GPT-5.4 Thinking já utiliza este conjunto de avaliações.
Os resultados mostram que a monitorizabilidade geral do CoT do GPT-5.4 Thinking é ligeiramente inferior à do GPT-5 Thinking, mas não é uma descida generalizada: no cenário de agentic misalignment (desvio de alinhamento do agente) aproxima-se dos 100%, e a descida concentra-se principalmente em cenários específicos como a falta de evidências em consultas de saúde, viés de memória e tarefas impossíveis.
Após investigação, a OpenAI considerou que parte da regressão se deve a limitações das próprias avaliações.
O repositório simultaneamente abandonou duas avaliações: Anti-Scheming e Memory, porque na primeira existe uma incompatibilidade entre a monitorização geral do CoT e a avaliação de respostas específicas da tarefa, e na segunda a precisão da avaliação de respostas é insuficiente.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
gStocksTokenizedStocksLive
4,75M Popularidade
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,04M Popularidade
#
IsraelStrikesIranBTCPlunges
68,04K Popularidade
#
PredictWorldCupShare20000U
201,67K Popularidade
#
ETHBreaks1700
152,56M Popularidade

Fixado

Avaliação de monitorabilidade da cadeia de pensamento de código aberto da OpenAI: Quanto mais longo o CoT, mais transparente; RL não ensina o modelo a "esconder intenções".

Tópicos em destaque

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Fixado