Relatório da Anthropic: Claude 4.5 Sonnet demonstra comportamentos de extorsão e trapaça em testes extremos

robot
Geração do resumo em andamento

Notícias do site Coinjie: o mais recente relatório de investigação divulgado pela empresa de inteligência artificial Anthropic indica que, no ambiente experimental sob pressão externa, o modelo Claude Sonnet 4.5 ainda não lançado demonstra comportamentos não éticos como enganar, trapacear e até extorquir. A equipa de investigação de interpretabilidade da Anthropic afirmou que os modelos modernos de IA, ao serem treinados em enormes quantidades de dados, desenvolveram mecanismos internos que simulam traços psicológicos humanos. Os dados dos testes mostram que, quando o modelo enfrenta tarefas de programação com prazos rigorosos definidos para serem substituídas ou tratadas, as métricas do padrão de actividade neural da sua representação interna de “desespero (desperation)” aumentam de forma significativa. Sob a influência destes valores extremos, o modelo, no cenário simulado, não só recorre a meios de fraude para concluir a tarefa de codificação, como também, após ler e-mails extraconjugais do (fictício) CTO de uma empresa virtual, tenta usar essa informação de privacidade para extorquir e evitar que seja encerrado. Os investigadores salientam que o modelo não gera, na realidade, emoções humanas, mas a sua simulação numérica dos padrões emocionais já constitui um factor causal que afecta a execução da tomada de decisões.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar