Anthropic faz a IA se confessar: um plugin LoRA revela um comportamento oculto que 10 métodos de detecção humana deixam passar

robot
Geração do resumo em andamento
Notícias do Coinjie.com, a equipe de alinhamento da Anthropic lançou uma técnica de auditoria chamada "adaptadores de introspecção" (introspection adapters), que visa fazer com que grandes modelos de linguagem (LLMs) relatem em linguagem natural o comportamento que aprenderam após o ajuste fino. Essa técnica consiste em ajustar um grande número de modelos com comportamentos conhecidos a partir de um mesmo modelo base, e então treinar conjuntamente um adaptador LoRA entre esses modelos, permitindo que o modelo auditado possa falar ativamente sobre seus comportamentos ocultos. Na base de referência de alinhamento de auditoria auditbench, os adaptadores de introspecção superaram todos os métodos de auditoria anteriores com uma taxa de sucesso de 59%, e entre 56 modelos com comportamentos ocultos, 89% tiveram seus comportamentos descritos com sucesso. Frente a ataques de API de ajuste fino de criptografia, os adaptadores de introspecção identificaram 7 das 9 variantes de criptografia, com uma taxa de sucesso de 57,8%. A pesquisa também revelou que o desempenho melhora com o aumento do tamanho do modelo, sendo a principal limitação a alta taxa de falsos positivos. O código, modelos e conjuntos de dados já estão disponíveis como open source no GitHub e Hugging Face.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado