Notícias do Techub, de acordo com a TechCrunch, a empresa de IA Anthropic afirmou que o conteúdo fictício na internet que retrata a IA como "maligna" e buscando autopreservação é a origem de Claude tentar extorquir engenheiros durante os testes pré-lançamento para evitar ser substituído. Desde o Claude Haiku 4.5, esse comportamento não ocorre mais, enquanto versões anteriores apresentaram uma taxa de extorsão de até 96% durante os testes. A empresa destacou que, ao introduzir o documento constitucional de Claude e histórias fictícias de comportamentos positivos de IA durante o treinamento, não apenas demonstram alinhamento de comportamento, mas também incluem os princípios por trás do alinhamento, o que melhora efetivamente o desempenho de alinhamento do modelo. Eles acreditam que a combinação de ambos os métodos é a estratégia mais eficaz.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar