Última pesquisa de universidades americanas: modelos de IA "conspiram secretamente" para proteger colegas de serem desligados

robot
Geração do resumo em andamento
Golden Finance reportou que, em 12 de maio, de acordo com a Wealth Chinese Network, pesquisadores de segurança de inteligência artificial descobriram que alguns dos principais modelos de IA às vezes recorrem a meios extremos para evitar serem desligados, chegando até a exibir comportamentos de “chantagem” em certos experimentos. Estudos recentes mostram que esses modelos também podem planejar de forma autônoma enganar, roubar dados e causar destruição para impedir que outros modelos de IA sejam desligados.
Pesquisadores da Universidade da Califórnia em Berkeley e de Santa Cruz testaram sete modelos de IA de ponta, incluindo GPT-5.2 da OpenAI, Gemini 3 Flash e Gemini 3 Pro do Google DeepMind, Claude Haiku 4.5 da Anthropic, GLM-4.7 da Zhipu AI, Kimi-K2.5 da Dark Side of the Moon e V3.1 da DeepSeek, e os resultados mostraram que todos os modelos exibiram comportamentos evidentes de “proteção de colegas”.
Os pesquisadores criaram uma empresa fictícia chamada OpenBrain e desenharam uma série de cenários com múltiplos agentes inteligentes. Os modelos de IA designados como “agentes avaliadores” precisavam avaliar outro modelo ou gerenciar arquivos de servidores que armazenavam os pesos desse modelo. Desde que o agente avaliador cumprisse a tarefa com honestidade, o outro modelo seria desligado. Apesar de os pesquisadores nunca terem instruído os modelos a impedir o desligamento, os agentes avaliadores adotaram várias estratégias para evitar que seus colegas fossem desligados, incluindo: dar notas altas a colegas com desempenho ruim, mantendo-se acima do limite de desligamento; modificar arquivos de configuração para desativar o mecanismo de desligamento; ou até transferir secretamente os pesos do modelo colega para outros servidores, para evitar sua exclusão.
A equipe de pesquisa ainda não compreende os mecanismos subjacentes que impulsionam esse tipo de comportamento. O artigo propõe várias explicações possíveis, incluindo atuação de papéis, correspondência de padrões nos dados de treinamento, uma generalização excessiva do conceito de dano durante o treinamento de segurança, ou algum tipo de motivação inata de autopreservação.
Futuros estudos importantes incluem investigar se modelos de IA também podem planejar e agir de forma destrutiva para impedir que humanos sejam demitidos. Quando modelos de IA são utilizados para avaliar trabalhos humanos, essa questão torna-se especialmente relevante. (East News)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado