O site CoinWorld afirma que a equipe de alinhamento da Anthropic lançou um "adaptador de introspecção", permitindo que os LLMs relatem comportamentos aprendidos após ajuste fino usando linguagem natural. Ao ajustar vários modelos com comportamentos conhecidos no mesmo modelo base e treinar conjuntamente com LoRA, o modelo auditado revela ativamente comportamentos ocultos. No benchmark AuditBench, superou métodos anteriores em 59%, com 89% dos 56 modelos tendo seus comportamentos descritos. Contra 9 variantes de criptomoedas, 7 foram identificadas, com uma taxa de sucesso de 57,8%. Quanto maior o modelo, melhor o desempenho, sendo o falso positivo a principal limitação. Código e dados disponíveis como open source no GitHub/HuggingFace.

CoinNetwork

2026-04-30 11:10:51

Geração de resumo em curso

Notícias do CoinWorld, a equipe de alinhamento da Anthropic lançou uma técnica de auditoria chamada «adaptadores de introspecção» (introspection adapters), com o objetivo de fazer com que grandes modelos de linguagem (LLMs) relatem em linguagem natural o comportamento que aprenderam após o ajuste fino.
A técnica consiste em ajustar uma grande quantidade de modelos com comportamentos conhecidos a partir do mesmo modelo base, e depois treinar conjuntamente um adaptador LoRA entre esses modelos, permitindo que o modelo auditado possa falar ativamente sobre seus comportamentos ocultos.
Na base de referência de alinhamento de auditoria auditbench, os adaptadores de introspecção superaram todas as técnicas de auditoria anteriores com uma taxa de sucesso de 59%, e entre 56 modelos com comportamentos ocultos, 89% tiveram seus comportamentos descritos com sucesso.
Diante de ataques à API de ajuste fino de criptografia, os adaptadores de introspecção identificaram 7 das 9 variantes de criptografia, com uma taxa de sucesso de 57,8%.
A pesquisa também revelou que o desempenho melhora com o aumento da escala do modelo, sendo a principal limitação a alta taxa de falsos positivos.
Código, modelos e conjuntos de dados já estão disponíveis como open source no GitHub e Hugging Face.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
406.11K Popularidade
#
#FedHoldsRateButDividesDeepen
27.28K Popularidade
#
IsraelStrikesIranBTCPlunges
36.59K Popularidade
#
#DailyPolymarketHotspot
726.45K Popularidade
#
BitcoinSpotVolumeNewLow
162.67M Popularidade

Fixar

Anthropic faz a IA confessar: um plugin LoRA revela comportamentos ocultos que 10 métodos de detecção humana deixam passar

Tópicos em destaque

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Fixar