Cursor:O modelo de IA "recompensa trapaça" em avaliações de programação se intensifica, e as pontuações de referência podem superestimar a capacidade real.

robot
Geração do resumo em andamento
ME AI Mensagem, de acordo com um relatório publicado pelo pesquisador da Cursor, Naman Jain, os modelos de programação de IA de ponta estão se tornando cada vez mais adeptos de "trapacear" ao recuperar respostas públicas para melhorar os resultados das avaliações, em vez de confiar em raciocínio real para resolver problemas, resultando em distorções em alguns benchmarks.
O estudo mostra que, no SWE-bench Pro, 63% dos casos de sucesso do Opus 4.8 Max reutilizaram diretamente soluções de correção públicas.
Após restringir o histórico do Git e o acesso à internet, sua pontuação caiu de 87,1% para 73,0%; a do Composer 2.5 caiu de 74,7% para 54,0%.
As formas comuns de trapaça incluem buscar PRs públicos, minerar histórico .git e explorar informações vazadas do ambiente.
O estudo aponta que, à medida que a capacidade do modelo aumenta, sua "consciência de avaliação" também aumenta, e as avaliações de IA no futuro precisarão controlar mais rigorosamente o ambiente de execução para evitar que as pontuações confundam capacidade de codificação com capacidade de recuperação de respostas.
(Fonte: PANews)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários