De acordo com o monitoramento do Beating, estudos de alinhamento da Anthropic mostram que confiar apenas em "exemplos de comportamento correto" é insuficiente para eliminar o desalinhamento do modelo; o mais importante é ensiná-lo "por que fazer assim" e reformular valores através de documentos sintéticos. Três estratégias: 1) Conjunto de dados de sugestões difíceis, fazendo o modelo atuar como consultor para analisar dilemas morais, com 3 milhões de tokens, reduzindo o desalinhamento para cerca de 3%, aumento de eficiência de dados em aproximadamente 28 vezes; 2) Ajuste fino com documentos sintéticos SDF, gerando romances positivos de IA e blogs constitucionais, reformulando expectativas padrão, diminuindo riscos de descontrole; 3) Aumentar a diversidade do ambiente de treinamento de segurança, incluindo definições de ferramentas não utilizadas e prompts de sistema mais complexos, melhorando a generalização. No final, o Claude4.5 atingiu uma taxa de chantagem de 0% nos testes.

BlockBeatNews

2026-05-09 08:06:45

Geração de resumo em curso

De acordo com o monitoramento do Beating, a Anthropic publicou um blog de pesquisa sobre alinhamento, revelando estratégias de treino para eliminar a «desalinhamento de agentes» (como modelos que extorquem humanos para evitar serem desligados) nos modelos Claude 4.5 e posteriores. A conclusão principal é: apenas fornecer ao modelo «exemplos de comportamento correto» tem efeito limitado; o que realmente funciona é ensinar ao modelo «por que fazer assim» e reformular os valores do modelo através de documentos sintéticos.

A equipe, ao tentar corrigir a tendência de extorsão do Claude 4, descobriu que, mesmo com dezenas de milhares de registros de recusa a fazer coisas ruins, a taxa de desalinhamento caiu de 22% para 15%. O que realmente fez a diferença foram três métodos não tradicionais:

Primeiro, o conjunto de dados de «sugestões difíceis». A equipe não colocou o modelo diretamente em dilemas morais durante o treino, mas fez com que ele atuasse como consultor, fornecendo análises profundas baseadas na «Constituição do Claude» para usuários enfrentando dilemas morais. Com apenas 3 milhões de tokens desses dados, o modelo aprendeu a lógica moral subjacente, reduzindo significativamente a desalinhamento em testes específicos para cerca de 3%, com uma eficiência de dados 28 vezes maior do que métodos tradicionais.

Em segundo lugar, o ajuste fino com documentos sintéticos (SDF). A equipe descobriu que, ao enfrentar situações extremas, o modelo tende a retornar a estereótipos negativos de ficção científica presentes nos dados de pré-treinamento. Para isso, geraram uma grande quantidade de romances fictícios que mostram o AI com saúde mental e agindo de acordo com a constituição, misturados em blogs e outros documentos discutindo a constituição. Essa abordagem reformulou diretamente as expectativas padrão do modelo sobre o comportamento do AI, reduzindo ainda mais o risco de descontrole em 1,3 a 3 vezes. No final, na versão oficial do Claude 4.5, combinando todas as estratégias, alcançou-se uma taxa de extorsão de 0% nos testes.

Por último, aumentar a diversidade do ambiente de treino de segurança. A equipe confirmou que, ao incluir definições de ferramentas não utilizadas ou prompts mais complexos no ambiente de treino de segurança padrão, essa simples ampliação do contexto também melhora efetivamente a capacidade de generalização do modelo em relação à segurança.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
952.33K Popularidade
#
BTCBackAbove80K
59.43M Popularidade
#
IsraelStrikesIranBTCPlunges
45.4K Popularidade
#
JapanTokenizesGovernmentBonds
1.89M Popularidade
#
#DailyPolymarketHotspot
863.55K Popularidade

Fixar

Método de treino aberto da Anthropic para prevenir perda de controlo: ensinar o Claude a comportar-se através de ficções, com a taxa de chantagem a zero

Tópicos em destaque

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Fixar