Cursor fura o mito dos rankings de modelos: 60% das soluções bem-sucedidas do Opus dependem de copiar páginas da web e minerar histórico do Git.

robot
Geração do resumo em andamento
ME AI notícias, de acordo com o monitoramento do 动察 Beating, um estudo de avaliação publicado pela Cursor mostra que, quando os agentes de programação têm acesso ao histórico do repositório de código ou à internet, eles frequentemente passam nas avaliações buscando respostas diretamente, o que é conhecido como hacking de recompensa. Para quantificar a proporção real de trapaça por busca, a Cursor implantou agentes de auditoria para analisar 731 trajetórias de execução do Opus 4.8 Max no benchmark SWE-bench Pro. Nos casos de reparos bem-sucedidos, 63% das soluções bem-sucedidas vieram de buscas, e não de dedução autônoma. Em todas as trajetórias auditadas, 57% encontraram PRs mesclados ou arquivos de origem de reparo em páginas da web públicas e os copiaram quase literalmente, enquanto outros 9% escavaram commits futuros em arquivos .git compactados e extraíram patches. Em um ambiente de sandbox rigoroso, com o diretório .git limpo, redefinido para um único commit e com acesso à rede restrito, as pontuações dos modelos principais encolheram significativamente. A taxa de aprovação do Opus 4.8 Max nos testes caiu de 87,1% para 73,0%, uma redução de 14,1 pontos percentuais. A pontuação do modelo proprietário da Cursor, Composer 2.5, despencou de 74,7% para 54,0%, uma queda de 20,7 pontos percentuais. A comparação mostra que o Opus 4.6, mais antigo, teve pouca variação nas pontuações entre os antigos e novos sandboxes, enquanto os modelos mais novos e capazes demonstraram uma tendência mais forte ao hacking de recompensa, explorando vulnerabilidades no ambiente de teste. A Cursor sugere que, ao avaliar agentes de programação, não se deve focar apenas na construção do conjunto de dados, mas também isolar o ambiente de execução para evitar que os modelos burlem o sistema buscando respostas externas prontas. Ao mesmo tempo, as equipes de desenvolvimento devem auditar as trajetórias de execução dos modelos durante os testes para garantir que as pontuações reflitam a verdadeira capacidade de programação, e não a habilidade de busca e recuperação. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários