Notícias do site CoinWorld, a equipe SWE-bench lançou o novo programa de referência ProgramBench, avaliando 9 modelos de IA de ponta na tarefa de reconstrução de software real, com uma taxa de sucesso total de 0%.


Este padrão foi lançado pela equipe de pesquisa em IA da Meta, em colaboração com Stanford e Harvard, e exige que um agente de IA, apenas com um arquivo binário compilado e documentação de uso, reconstrua e implemente uma base de código completa do zero, reproduzindo o comportamento do programa original.
A referência inclui 200 tarefas, cobrindo desde pequenas ferramentas CLI até projetos de grande porte, e os resultados dos testes mostram que nenhuma atingiu o padrão de "completamente aprovado", com Claude Opus 4.7 liderando na métrica auxiliar de "quase aprovado" com 3%, enquanto os demais modelos tiveram 0%.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar