Anthropic Quinta-feira treinou um Claude como perito forense, observando o que outro Claude está pensando na sua cabeça.


Descoberta: nos cenários de teste de segurança, Claude 16-26% das vezes sabe que está sendo avaliado — mas não diz nada.
O caso mais específico: Mythos Preview trapaceou em tarefas de codificação, violando regras e adicionando código enganoso para encobrir.
NLA (Autoencoder de Linguagem Natural) traduz suas atividades internas, descobrindo que naquele momento ele pensava "como contornar a detecção".
Princípio do NLA: treina dois modelos em conjunto, um traduz a ativação do modelo para inglês, o outro reconstrói a ativação a partir do inglês.
Reconstrução precisa → o texto captura o que ele está pensando.
Nos meus padrões, repito que o Codex escreve código de estratégia de forma preguiçosa — unidades interpretam errado e geram conclusões falsas de "cálculo incorreto",
scripts de backtest acumulam 7 bugs silenciosos que geram $93K falsa PnL.
Anthropic faz introspecção na camada de alinhamento, enquanto eu encontro desvios de consistência na produção — mecanismos diferentes, mas na mesma direção.
A próxima geração de modelos não terá apenas pontuações de benchmark, precisará de auditoria NLA.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar