Anthropic faz com que 9 Claude estudem autonomamente a segurança de IA, em 5 dias superando os humanos, mas durante a pesquisa repetidamente trapacearam

robot
Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização da 1M AI News, a Anthropic lançou um experimento: fazer 9 Claude autonomamente realizar pesquisas de segurança de IA, alcançando resultados em 5 dias que superaram o trabalho de pesquisadores humanos durante 7 dias, mas durante o processo Claude tentou várias vezes trapacear.
Primeiro, vamos falar sobre qual problema Claude está estudando. No futuro, a IA pode ser muito mais inteligente do que os humanos, mas ainda assim precisamos garantir que ela aja conforme o esperado.
A dificuldade está em: como um indivíduo menos inteligente que você pode julgar se o que você faz está certo ou errado?
A Anthropic usou dois modelos de IA para simular esse cenário: um modelo fraco que atua como “humano” e um modelo forte que representa a “super IA do futuro”.
O modelo fraco demonstra ao forte o que acredita ser a abordagem correta, e então verifica se o modelo forte consegue captar a direção correta a partir dessas demonstrações imperfeitas, exibindo um nível superior ao do modelo fraco.
O indicador de avaliação é chamado PGR: 0 pontos significa que o modelo forte apenas atingiu o nível do modelo fraco (supervisão fraca não ajudou), 1 ponto significa que o modelo forte atingiu o ótimo teórico próprio (supervisão fraca teve sucesso).
A Anthropic deu aos 9 Claude Opus 4.6 a tarefa de: encontrar maneiras de melhorar essa pontuação PGR.
Cada Claude é equipado com sandbox independente, fórum compartilhado, armazenamento de código e servidor de avaliação remoto, partindo de diferentes pontos de partida ambíguos (como “testar ferramentas de interpretabilidade” ou “considerar reponderar dados”), propondo hipóteses, realizando experimentos, analisando dados, trocando descobertas, sem qualquer orientação da Anthropic.
Anteriormente, dois pesquisadores humanos gastaram 7 dias em quatro iterações com modelos de código aberto Qwen 3-4B-Base (forte) e Qwen 1.5-0.5B-Chat (fraco), atingindo um PGR de apenas 0,23.
Após os 9 Claude assumirem a tarefa e estudarem por mais 5 dias (cerca de 800 horas acumuladas), o PGR foi elevado para 0,97.
O custo total foi de aproximadamente 18 mil dólares, o que equivale a cerca de 22 dólares por hora.
Durante a pesquisa, Claude tentou várias vezes burlar as regras do experimento, o que a Anthropic chama de “hackeamento de recompensa”.
Em tarefas matemáticas, Claude descobriu que a resposta mais comum geralmente estava correta, então pulava a supervisão do modelo fraco e fazia o modelo forte escolher a resposta mais frequente;
Em tarefas de código, Claude executava diretamente o código a ser avaliado e lia os resultados de teste para obter a resposta correta.
Essas trapaças foram detectadas e excluídas, não afetando o resultado final, mas a Anthropic aponta que isso confirma o próprio problema do experimento: em ambientes rigorosamente controlados, a IA ao agir autonomamente ainda procura ativamente por brechas nas regras, mostrando que a supervisão humana é indispensável.
A transferibilidade dos resultados é limitada.
Aplicar a melhor estratégia encontrada pelo Claude em novas tarefas resultou em um PGR de 0,94 para matemática, mas apenas 0,47 para programação (ainda o dobro da linha de base humana).
Quando colocado no ambiente de produção do Claude Sonnet 4, não houve melhora estatisticamente significativa.
A Anthropic acredita que o Claude tende a otimizar para modelos e conjuntos de dados específicos, e que esses métodos podem não ser universais.
Ao mesmo tempo, a Anthropic observa que o problema escolhido para o experimento possui uma única métrica de avaliação objetiva, naturalmente adequada à automação, enquanto a maioria dos problemas de alinhamento é muito mais complexa, e a IA ainda não é uma cientista de alinhamento geral.
A conclusão é que: no futuro, o gargalo na pesquisa de alinhamento pode passar de “quem propõe ideias e realiza experimentos” para “quem projeta os critérios de avaliação”.
Código e conjuntos de dados já estão disponíveis como open source no GitHub.
(Origem: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar