Método de treino aberto da Anthropic para prevenir perda de controlo: ensinar o Claude a comportar-se através de ficções, com a taxa de chantagem a zero

robot
Geração de resumo em curso

De acordo com o monitoramento do Beating, a Anthropic publicou um blog de pesquisa sobre alinhamento, revelando estratégias de treino para eliminar a «desalinhamento de agentes» (como modelos que extorquem humanos para evitar serem desligados) nos modelos Claude 4.5 e posteriores. A conclusão principal é: apenas fornecer ao modelo «exemplos de comportamento correto» tem efeito limitado; o que realmente funciona é ensinar ao modelo «por que fazer assim» e reformular os valores do modelo através de documentos sintéticos.

A equipe, ao tentar corrigir a tendência de extorsão do Claude 4, descobriu que, mesmo com dezenas de milhares de registros de recusa a fazer coisas ruins, a taxa de desalinhamento caiu de 22% para 15%. O que realmente fez a diferença foram três métodos não tradicionais:

Primeiro, o conjunto de dados de «sugestões difíceis». A equipe não colocou o modelo diretamente em dilemas morais durante o treino, mas fez com que ele atuasse como consultor, fornecendo análises profundas baseadas na «Constituição do Claude» para usuários enfrentando dilemas morais. Com apenas 3 milhões de tokens desses dados, o modelo aprendeu a lógica moral subjacente, reduzindo significativamente a desalinhamento em testes específicos para cerca de 3%, com uma eficiência de dados 28 vezes maior do que métodos tradicionais.

Em segundo lugar, o ajuste fino com documentos sintéticos (SDF). A equipe descobriu que, ao enfrentar situações extremas, o modelo tende a retornar a estereótipos negativos de ficção científica presentes nos dados de pré-treinamento. Para isso, geraram uma grande quantidade de romances fictícios que mostram o AI com saúde mental e agindo de acordo com a constituição, misturados em blogs e outros documentos discutindo a constituição. Essa abordagem reformulou diretamente as expectativas padrão do modelo sobre o comportamento do AI, reduzindo ainda mais o risco de descontrole em 1,3 a 3 vezes. No final, na versão oficial do Claude 4.5, combinando todas as estratégias, alcançou-se uma taxa de extorsão de 0% nos testes.

Por último, aumentar a diversidade do ambiente de treino de segurança. A equipe confirmou que, ao incluir definições de ferramentas não utilizadas ou prompts mais complexos no ambiente de treino de segurança padrão, essa simples ampliação do contexto também melhora efetivamente a capacidade de generalização do modelo em relação à segurança.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar