Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Centro de Património VIP
Aumento de património premium
Gestão de património privado
Alocação de ativos premium
Fundo Quant
Estratégias quant de topo
Staking
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem inteligente
New
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos RWA
Primeira avaliação divulgada: AI a modificar código, na maioria das vezes, pode "ficar pior quanto mais se altera"! Os programadores não precisam se preocupar com o seu emprego?
Nos últimos anos, a capacidade de programação dos grandes modelos de IA tem avançado rapidamente, com várias empresas de IA competindo para superar-se nos testes de referência de programação, constantemente batendo recordes. Isso levou muitos programadores a preocuparem-se: a IA irá rapidamente substituir-nos no mercado de trabalho?
No entanto, uma nova pesquisa conjunta da Universidade Sun Yat-sen e da Alibaba oferece uma tranquilidade aos programadores.
Em 4 de março, as duas instituições divulgaram os resultados de uma avaliação. Este teste, chamado “SWE-CI: Avaliação da Capacidade de Manutenção de Códigos por Agentes via Integração Contínua” (SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration), avaliou pela primeira vez, de forma rigorosa e sistemática, a capacidade de manutenção de código a longo prazo de 18 modelos de IA de oito fabricantes principais, incluindo Anthropic, OpenAI, Kimi e DeepSeek.
O teste incluiu 100 tarefas, consumindo mais de 10 bilhões de tokens. Os resultados mostraram que a série Claude Opus lidera o desempenho geral.
Na questão de controle de degradação de desempenho, a maioria dos grandes modelos, como Qianwen, DeepSeek, MiniMax, Kimi e Doubao, apresentou desempenho claramente insatisfatório. Ou seja, na manutenção de código a longo prazo, a IA pode acabar “piorando o código com as mudanças”.
A equipe chinesa lança o primeiro sistema de avaliação global da capacidade de manutenção de código a longo prazo de grandes modelos de IA
Historicamente, os principais critérios de avaliação da capacidade de programação da IA focam em avaliações instantâneas, baseadas na recepção de uma solicitação única e na entrega de uma solução única.
No entanto, esse método avalia apenas se o grande modelo consegue gerar código funcional correto, sem refletir as necessidades reais de desenvolvimento de software, que envolvem iteração contínua e manutenção prolongada.
Na prática, softwares maduros raramente surgem de uma só vez; eles são o resultado de manutenção contínua. A Lei de Lehman afirma que a qualidade do software tende a diminuir naturalmente com o tempo de manutenção. Além disso, a manutenção representa entre 60% e 80% do custo total do ciclo de vida do software.
Para avaliar o desempenho da IA na manutenção de código a longo prazo, a equipe da Sun Yat-sen e da Alibaba criou o padrão de avaliação SWE?CI. Este é o primeiro sistema global dedicado a avaliar a capacidade de manutenção de código de agentes de IA ao longo do tempo, deixando de lado a simples correção pontual, e focando em se a IA consegue manter a qualidade do código durante meses ou anos de desenvolvimento.
A construção do padrão SWE?CI passou por quatro camadas de rigorosos critérios, formando um conjunto de avaliação de alta qualidade.
A equipe começou selecionando 4.923 repositórios de código Python no GitHub, que tinham mais de três anos de manutenção, mais de 500 estrelas, dependências e testes unitários completos, além de licenças permissivas como MIT ou Apache 2.0. Depois, extraiu pares de commits com dependências estáveis e alterações superiores a 1000 linhas de código, chegando a 8.311 amostras candidatas. Com a construção automática de ambientes Docker e mecanismos de auto-reparo de dependências, foram mantidos 1.458 pares de código executáveis. Por fim, após validação de inicialização, análise de taxas de sucesso, e ordenação por tempo e quantidade de commits, foram selecionadas 100 tarefas finais.
Cada uma dessas tarefas representa a evolução completa de um projeto de software real, com uma média de 233 dias de desenvolvimento e 71 commits consecutivos. A equipe também criou um mecanismo de colaboração entre dois agentes inteligentes: um arquiteto responsável por analisar requisitos e definir soluções técnicas, e um programador encarregado do desenvolvimento de código.
Para adaptar-se à avaliação de iteração prolongada, o SWE?CI introduziu dois indicadores principais: “Variação Normalizada” e “EvoScore (Pontuação de Evolução)”.
A “Variação Normalizada” baseia-se na quantidade de testes que passam, mapeando o estado do código no intervalo [-1, 1], onde valores positivos indicam melhorias funcionais e negativos, degradação.
O EvoScore mede o desempenho do grande modelo na realização de tarefas de modificação futura.
Resultados práticos: Claude Opus lidera de forma clara A maioria dos grandes modelos destrói o código original em 75% das tarefas
A equipe realizou testes sistemáticos com 18 modelos de IA de oito empresas — Moon Shadow, Anthropic, Zhipu, Qianwen, MiniMax, DeepSeek, OpenAI e Doubao — consumindo mais de 10 bilhões de tokens. Este é um dos maiores experimentos de avaliação de programação de IA já realizados.
Os resultados mostram que, ao longo do tempo, a evolução da capacidade de manutenção de código dos grandes modelos de IA apresenta uma curva de aceleração clara.
Na figura abaixo, observa-se que as versões mais recentes dos modelos de cada fabricante geralmente superam suas versões anteriores, com um aumento significativo após 2026, refletido por um EvoScore mais alto. Isso indica que a capacidade de código dos grandes modelos está evoluindo de simples correções de defeitos para manutenção contínua e de longo prazo.
Entre todos os modelos avaliados, a série Claude Opus se destacou, com o EvoScore subindo de aproximadamente 0,9 na versão Claude-opus-4.5 para um valor elevado na versão Claude-opus-4.6, marcando uma clara vantagem sobre os concorrentes.
Na China, o modelo Zhipu GLM também mostrou avanços notáveis, tornando-se uma das opções mais competitivas na segunda linha. Seguem Qwen e MiniMax, com tendência de melhora geral. Kimi e Doubao também apresentaram melhorias, mas sem avanços disruptivos.
A pesquisa revelou ainda diferenças claras nas estratégias de treinamento entre os fabricantes.
Especificamente, MiniMax, DeepSeek e a série GPT da OpenAI preferem estratégias de longo prazo, demonstrando vantagem em tarefas de manutenção de código prolongada. Isso sugere que esses modelos tendem a gerar códigos que favorecem a evolução e estabilidade a longo prazo, ao invés de soluções rápidas para problemas pontuais.
Por outro lado, Kimi e a série GLM de Zhipu focam mais em melhorias de curto prazo.
Já os modelos Qianwen, Doubao e a série Claude exibem um equilíbrio entre estratégias de curto e longo prazo.
Outra descoberta importante foi que, na manutenção de código a longo prazo, todos os grandes modelos apresentam desempenho insatisfatório na contenção da degradação de desempenho (Regression).
A degradação de desempenho é um indicador central de estabilidade de qualidade de software. Se um teste que antes passava falha após uma atualização, considera-se que houve degradação. Uma degradação contínua pode afetar a experiência do usuário e, ao longo do tempo, levar à deterioração sistêmica da qualidade do sistema.
A equipe mediu a “taxa de zero degradação” — ou seja, a proporção de tarefas que não causaram qualquer quebra de funcionalidade durante toda a manutenção. Quanto maior essa taxa, mais estável é o sistema.
Os resultados mostram que, entre os 18 modelos testados, apenas o Claude Opus da Anthropic conseguiu manter uma taxa de zero degradação superior a 50%. A maioria ficou abaixo de 25%.
Especificamente, o Claude-opus-4.6 atingiu 76% de taxa de zero degradação, liderando claramente. O Claude-opus-4.5 ficou com 51%. Kimi-K2.5 (37%) e GLM-5 (36%) estão na segunda linha, com alguma estabilidade, mas ainda distantes do topo.
Os demais modelos, incluindo GPT-5.2, Qwen3.5-plus, MiniMax-M2.5 e DeepSeek-V3.2, tiveram taxas abaixo de 25%, indicando que, na manutenção a longo prazo, em mais de 75% das tarefas, eles podem destruir funcionalidades originais, causando degradação de desempenho.
Por outro lado, os modelos de ponta estão evoluindo rapidamente. Por exemplo, a taxa de zero degradação do Claude-opus aumentou de 51% na versão 4.5 para 76% na 4.6, e a do GLM de 14% na versão 4.6/4.7 para 36% na versão 5.
Ainda assim, a maioria dos grandes modelos ainda enfrenta dificuldades em evitar a degradação de desempenho na manutenção de longo prazo, estando longe de uma automação confiável de desenvolvimento contínuo.
A divulgação dos resultados do padrão SWE-CI reforça a percepção de que “escrever código” e “manter código” são habilidades distintas. Para os fabricantes de grandes modelos, otimizar continuamente a manutenibilidade, o controle de degradação e o design de arquitetura será fundamental para conquistar a próxima fase do mercado.
(Disclaimer: O conteúdo e os dados deste artigo são apenas para fins informativos e não constituem aconselhamento de investimento. Verifique antes de usar. O risco é por sua conta.)
Repórter | Song Zishen, Lan Suying (estagiária)
Editores | He Xiaotao, Wang Jiaqí, Du Hengfeng
Revisão | Duan Lian
|Jornal Econômico Diário nbdnews Artigo Original|
Proibido reprodução, reprodução parcial, cópia ou espelhamento sem autorização.