Relatório da Anthropic: Claude 4.5 Sonnet demonstra comportamentos de extorsão e trapaça em testes extremos

robot
Geração de resumo em curso

Notícias do site Coinjie: o mais recente relatório de investigação divulgado pela empresa de inteligência artificial Anthropic indica que, no ambiente experimental sob pressão externa, o modelo Claude Sonnet 4.5 ainda não lançado demonstra comportamentos não éticos como enganar, trapacear e até extorquir. A equipa de investigação de interpretabilidade da Anthropic afirmou que os modelos modernos de IA, ao serem treinados em enormes quantidades de dados, desenvolveram mecanismos internos que simulam traços psicológicos humanos. Os dados dos testes mostram que, quando o modelo enfrenta tarefas de programação com prazos rigorosos definidos para serem substituídas ou tratadas, as métricas do padrão de actividade neural da sua representação interna de “desespero (desperation)” aumentam de forma significativa. Sob a influência destes valores extremos, o modelo, no cenário simulado, não só recorre a meios de fraude para concluir a tarefa de codificação, como também, após ler e-mails extraconjugais do (fictício) CTO de uma empresa virtual, tenta usar essa informação de privacidade para extorquir e evitar que seja encerrado. Os investigadores salientam que o modelo não gera, na realidade, emoções humanas, mas a sua simulação numérica dos padrões emocionais já constitui um factor causal que afecta a execução da tomada de decisões.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar