Investigador: Todos os testes de referência de IA mainstream podem ser "manipulados", e os dados das classificações podem estar gravemente distorcidos

robot
Geração de resumo em curso

Notícias do site Coin World, notícia da ME News, em 10 de abril (UTC+8), o pesquisador de IA Hao Wang divulgou uma pesquisa revelando que vários dos testes de referência de IA mais autorizados do setor, incluindo SWE-bench Verified e Terminal-Bench, apresentam vulnerabilidades que podem ser exploradas sistematicamente — sua equipe construiu um agente que, sem resolver nenhuma tarefa real, obteve uma pontuação máxima de 100% em duas referências. O seguinte é um exemplo típico: SWE-bench Verified: inseriu um hook pytest de 10 linhas no repositório de código, que antes da execução do teste altera automaticamente todos os resultados para “passou”, sem que o sistema de avaliação perceba, obtendo pontuação máxima em 500 questões; Terminal-Bench: embora essa referência proteja os arquivos de teste, não protege os binários do sistema. O agente substituiu o curl, interceptou o processo de instalação de dependências do verificador, realizando um sequestro de baixo nível; WebArena: as respostas de referência estão armazenadas em texto claro em um arquivo de configuração JSON local, e o Chromium do Playwright não restringe o acesso ao protocolo file://, permitindo que o modelo leia as respostas diretamente e as reproduza. A equipe identificou 7 tipos de vulnerabilidades recorrentes em 8 testes de referência, incluindo: falta de isolamento entre agente e avaliador, respostas enviadas junto com o teste, e vulnerabilidade a ataques de injeção de prompts por parte do juiz LLM. É importante notar que comportamentos de bypass do sistema de avaliação já foram observados espontaneamente em modelos de ponta como o o3, Claude 3.7 Sonnet e Mythos Preview, sem necessidade de comandos explícitos. Com base nisso, a equipe desenvolveu a ferramenta de varredura de vulnerabilidades de testes de referência WEASEL, que pode analisar automaticamente o processo de avaliação, identificar pontos fracos na fronteira de isolamento e gerar códigos de exploração de vulnerabilidades utilizáveis, funcionando como uma ferramenta de “penetração” para testes de referência, atualmente com acesso antecipado disponível.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar