Anthropic faz a IA confessar: um plugin LoRA revela comportamentos ocultos que 10 métodos de detecção humana deixam passar

robot
Geração de resumo em curso

Notícias do CoinWorld, a equipe de alinhamento da Anthropic lançou uma técnica de auditoria chamada «adaptadores de introspecção» (introspection adapters), com o objetivo de fazer com que grandes modelos de linguagem (LLMs) relatem em linguagem natural o comportamento que aprenderam após o ajuste fino.
A técnica consiste em ajustar uma grande quantidade de modelos com comportamentos conhecidos a partir do mesmo modelo base, e depois treinar conjuntamente um adaptador LoRA entre esses modelos, permitindo que o modelo auditado possa falar ativamente sobre seus comportamentos ocultos.
Na base de referência de alinhamento de auditoria auditbench, os adaptadores de introspecção superaram todas as técnicas de auditoria anteriores com uma taxa de sucesso de 59%, e entre 56 modelos com comportamentos ocultos, 89% tiveram seus comportamentos descritos com sucesso.
Diante de ataques à API de ajuste fino de criptografia, os adaptadores de introspecção identificaram 7 das 9 variantes de criptografia, com uma taxa de sucesso de 57,8%.
A pesquisa também revelou que o desempenho melhora com o aumento da escala do modelo, sendo a principal limitação a alta taxa de falsos positivos.
Código, modelos e conjuntos de dados já estão disponíveis como open source no GitHub e Hugging Face.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar