Zhipu GLM-5.2 conquista o topo como o primeiro código aberto do DeepSWE: resolve 44% de tarefas de desenvolvimento complexas, superando os principais modelos fechados

robot
Geração do resumo em andamento
De acordo com o monitoramento Beating, o modelo de código aberto AI Zhipu GLM-5.2 foi oficialmente integrado ao padrão de engenharia de software de longo prazo DeepSWE.
No modo de maior esforço de raciocínio, a taxa de sucesso de tarefas de desenvolvimento complexas atingiu 44%, ocupando o primeiro lugar entre os modelos de código aberto.
Em comparação com o Kimi K2.7 Code, que entrou na lista anteriormente, a taxa de sucesso é 13 pontos percentuais mais alta.

O custo médio por tarefa resolvida pelo GLM-5.2 é de 3,92 dólares, ligeiramente superior aos 2,82 dólares do Kimi K2.7 Code, mas sua taxa de sucesso supera o desempenho de vários modelos fechados mainstream em configurações específicas de raciocínio, incluindo Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), e Claude Opus 4.8 [low] (41%).

A avaliação, conduzida pela parte avaliadora Datacurve, foi projetada especificamente para testar a capacidade do AI de resolver tarefas longas no padrão DeepSWE.
O teste inclui 113 problemas reais de programação, cobrindo 5 linguagens.
Ao contrário dos testes tradicionais que modificam apenas uma parte do código, o DeepSWE exige que o AI colabore na modificação de múltiplos arquivos, com uma média de mais de 600 linhas de código corrigidas.
A avaliação é executada em containers isolados, com restrições rigorosas de recursos de CPU e memória.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado