Primeira avaliação divulgada: AI a modificar código, na maioria das vezes, pode "ficar pior quanto mais se altera"! Os programadores não precisam se preocupar com o seu emprego?

Nos últimos anos, a capacidade de programação dos grandes modelos de IA tem avançado rapidamente, com várias empresas de IA competindo para superar-se nos testes de referência de programação, constantemente batendo recordes. Isso levou muitos programadores a preocuparem-se: a IA irá rapidamente substituir-nos no mercado de trabalho?

No entanto, uma nova pesquisa conjunta da Universidade Sun Yat-sen e da Alibaba oferece uma tranquilidade aos programadores.

Em 4 de março, as duas instituições divulgaram os resultados de uma avaliação. Este teste, chamado “SWE-CI: Avaliação da Capacidade de Manutenção de Códigos por Agentes via Integração Contínua” (SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration), avaliou pela primeira vez, de forma rigorosa e sistemática, a capacidade de manutenção de código a longo prazo de 18 modelos de IA de oito fabricantes principais, incluindo Anthropic, OpenAI, Kimi e DeepSeek.

O teste incluiu 100 tarefas, consumindo mais de 10 bilhões de tokens. Os resultados mostraram que a série Claude Opus lidera o desempenho geral.

Na questão de controle de degradação de desempenho, a maioria dos grandes modelos, como Qianwen, DeepSeek, MiniMax, Kimi e Doubao, apresentou desempenho claramente insatisfatório. Ou seja, na manutenção de código a longo prazo, a IA pode acabar “piorando o código com as mudanças”.

A equipe chinesa lança o primeiro sistema de avaliação global da capacidade de manutenção de código a longo prazo de grandes modelos de IA

Historicamente, os principais critérios de avaliação da capacidade de programação da IA focam em avaliações instantâneas, baseadas na recepção de uma solicitação única e na entrega de uma solução única.

No entanto, esse método avalia apenas se o grande modelo consegue gerar código funcional correto, sem refletir as necessidades reais de desenvolvimento de software, que envolvem iteração contínua e manutenção prolongada.

Na prática, softwares maduros raramente surgem de uma só vez; eles são o resultado de manutenção contínua. A Lei de Lehman afirma que a qualidade do software tende a diminuir naturalmente com o tempo de manutenção. Além disso, a manutenção representa entre 60% e 80% do custo total do ciclo de vida do software.

Para avaliar o desempenho da IA na manutenção de código a longo prazo, a equipe da Sun Yat-sen e da Alibaba criou o padrão de avaliação SWE?CI. Este é o primeiro sistema global dedicado a avaliar a capacidade de manutenção de código de agentes de IA ao longo do tempo, deixando de lado a simples correção pontual, e focando em se a IA consegue manter a qualidade do código durante meses ou anos de desenvolvimento.

A construção do padrão SWE?CI passou por quatro camadas de rigorosos critérios, formando um conjunto de avaliação de alta qualidade.

A equipe começou selecionando 4.923 repositórios de código Python no GitHub, que tinham mais de três anos de manutenção, mais de 500 estrelas, dependências e testes unitários completos, além de licenças permissivas como MIT ou Apache 2.0. Depois, extraiu pares de commits com dependências estáveis e alterações superiores a 1000 linhas de código, chegando a 8.311 amostras candidatas. Com a construção automática de ambientes Docker e mecanismos de auto-reparo de dependências, foram mantidos 1.458 pares de código executáveis. Por fim, após validação de inicialização, análise de taxas de sucesso, e ordenação por tempo e quantidade de commits, foram selecionadas 100 tarefas finais.

Cada uma dessas tarefas representa a evolução completa de um projeto de software real, com uma média de 233 dias de desenvolvimento e 71 commits consecutivos. A equipe também criou um mecanismo de colaboração entre dois agentes inteligentes: um arquiteto responsável por analisar requisitos e definir soluções técnicas, e um programador encarregado do desenvolvimento de código.

Para adaptar-se à avaliação de iteração prolongada, o SWE?CI introduziu dois indicadores principais: “Variação Normalizada” e “EvoScore (Pontuação de Evolução)”.

A “Variação Normalizada” baseia-se na quantidade de testes que passam, mapeando o estado do código no intervalo [-1, 1], onde valores positivos indicam melhorias funcionais e negativos, degradação.

O EvoScore mede o desempenho do grande modelo na realização de tarefas de modificação futura.

Resultados práticos: Claude Opus lidera de forma clara A maioria dos grandes modelos destrói o código original em 75% das tarefas

A equipe realizou testes sistemáticos com 18 modelos de IA de oito empresas — Moon Shadow, Anthropic, Zhipu, Qianwen, MiniMax, DeepSeek, OpenAI e Doubao — consumindo mais de 10 bilhões de tokens. Este é um dos maiores experimentos de avaliação de programação de IA já realizados.

Os resultados mostram que, ao longo do tempo, a evolução da capacidade de manutenção de código dos grandes modelos de IA apresenta uma curva de aceleração clara.

Na figura abaixo, observa-se que as versões mais recentes dos modelos de cada fabricante geralmente superam suas versões anteriores, com um aumento significativo após 2026, refletido por um EvoScore mais alto. Isso indica que a capacidade de código dos grandes modelos está evoluindo de simples correções de defeitos para manutenção contínua e de longo prazo.

Entre todos os modelos avaliados, a série Claude Opus se destacou, com o EvoScore subindo de aproximadamente 0,9 na versão Claude-opus-4.5 para um valor elevado na versão Claude-opus-4.6, marcando uma clara vantagem sobre os concorrentes.

Na China, o modelo Zhipu GLM também mostrou avanços notáveis, tornando-se uma das opções mais competitivas na segunda linha. Seguem Qwen e MiniMax, com tendência de melhora geral. Kimi e Doubao também apresentaram melhorias, mas sem avanços disruptivos.

A pesquisa revelou ainda diferenças claras nas estratégias de treinamento entre os fabricantes.

Especificamente, MiniMax, DeepSeek e a série GPT da OpenAI preferem estratégias de longo prazo, demonstrando vantagem em tarefas de manutenção de código prolongada. Isso sugere que esses modelos tendem a gerar códigos que favorecem a evolução e estabilidade a longo prazo, ao invés de soluções rápidas para problemas pontuais.

Por outro lado, Kimi e a série GLM de Zhipu focam mais em melhorias de curto prazo.

Já os modelos Qianwen, Doubao e a série Claude exibem um equilíbrio entre estratégias de curto e longo prazo.

Outra descoberta importante foi que, na manutenção de código a longo prazo, todos os grandes modelos apresentam desempenho insatisfatório na contenção da degradação de desempenho (Regression).

A degradação de desempenho é um indicador central de estabilidade de qualidade de software. Se um teste que antes passava falha após uma atualização, considera-se que houve degradação. Uma degradação contínua pode afetar a experiência do usuário e, ao longo do tempo, levar à deterioração sistêmica da qualidade do sistema.

A equipe mediu a “taxa de zero degradação” — ou seja, a proporção de tarefas que não causaram qualquer quebra de funcionalidade durante toda a manutenção. Quanto maior essa taxa, mais estável é o sistema.

Os resultados mostram que, entre os 18 modelos testados, apenas o Claude Opus da Anthropic conseguiu manter uma taxa de zero degradação superior a 50%. A maioria ficou abaixo de 25%.

Especificamente, o Claude-opus-4.6 atingiu 76% de taxa de zero degradação, liderando claramente. O Claude-opus-4.5 ficou com 51%. Kimi-K2.5 (37%) e GLM-5 (36%) estão na segunda linha, com alguma estabilidade, mas ainda distantes do topo.

Os demais modelos, incluindo GPT-5.2, Qwen3.5-plus, MiniMax-M2.5 e DeepSeek-V3.2, tiveram taxas abaixo de 25%, indicando que, na manutenção a longo prazo, em mais de 75% das tarefas, eles podem destruir funcionalidades originais, causando degradação de desempenho.

Por outro lado, os modelos de ponta estão evoluindo rapidamente. Por exemplo, a taxa de zero degradação do Claude-opus aumentou de 51% na versão 4.5 para 76% na 4.6, e a do GLM de 14% na versão 4.6/4.7 para 36% na versão 5.

Ainda assim, a maioria dos grandes modelos ainda enfrenta dificuldades em evitar a degradação de desempenho na manutenção de longo prazo, estando longe de uma automação confiável de desenvolvimento contínuo.

A divulgação dos resultados do padrão SWE-CI reforça a percepção de que “escrever código” e “manter código” são habilidades distintas. Para os fabricantes de grandes modelos, otimizar continuamente a manutenibilidade, o controle de degradação e o design de arquitetura será fundamental para conquistar a próxima fase do mercado.

(Disclaimer: O conteúdo e os dados deste artigo são apenas para fins informativos e não constituem aconselhamento de investimento. Verifique antes de usar. O risco é por sua conta.)

Repórter | Song Zishen, Lan Suying (estagiária)

Editores | He Xiaotao, Wang Jiaqí, Du Hengfeng

Revisão | Duan Lian

|Jornal Econômico Diário nbdnews Artigo Original|

Proibido reprodução, reprodução parcial, cópia ou espelhamento sem autorização.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar