Cognition AI e Applied Compute colaboraram no desenvolvimento do modelo SWE-Check, que utiliza aprendizagem por reforço para detectar bugs de código, apresentando velocidade e custo significativamente superiores aos modelos de ponta. Apesar de na avaliação a diferença em relação ao Claude Opus 4.6 ter diminuído, ainda é necessário otimizar mais. O modelo usa uma recompensa linear e um método de treinamento em duas fases, com o objetivo de melhorar a precisão de deteção e a eficiência operacional. A versão de pré-visualização já está disponível na Windsurf Next.

MeNews

2026-04-15 12:40:17

Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização do Beating, a empresa-mãe do ferramenta de programação AI Windsurf, Cognition AI, em colaboração com a empresa de treino de IA Applied Compute, treinou um modelo especializado na deteção de bugs de código, chamado SWE-Check, através de aprendizagem por reforço. Este modelo analisa as alterações de código atuais do utilizador (diff), marca automaticamente possíveis bugs introduzidos e fornece sugestões de correção.
Nos testes de avaliação com distribuição semelhante aos dados de treino, a pontuação F1 do SWE-Check igualou a do Claude Opus 4.6 (a diferença caiu de 0,09 para 0); nos testes de avaliação com distribuição diferente, a diferença reduziu-se de 0,49 para 0,29, ainda atrás do modelo de ponta, mas com melhorias evidentes.
A principal vantagem reside na velocidade e no custo: o SWE-Check é um fator de 10 mais rápido que os modelos de ponta, com custos de inferência significativamente mais baixos, permitindo deteção de bugs instantânea e gratuita dentro do IDE, algo que modelos grandes como o Opus 4.6 não conseguem fazer diretamente.
Existem duas abordagens de design na formação que merecem destaque:

Linearização da recompensa (reward linearization): a equipa pretende otimizar a métrica global F-beta, mas essa métrica não pode ser desmembrada diretamente em amostras individuais. Utilizaram uma aproximação de primeira ordem para transformar a métrica global numa função de recompensa calculável por amostra, permitindo que o treino melhore efetivamente a métrica global. Nas versões iniciais, a taxa de falsos positivos era elevada, por isso ajustaram o beta de 1 para 0,5 para enfatizar a precisão.
Treino em duas fases: na primeira fase, maximizam apenas a capacidade de deteção de bugs, sem penalizar atrasos; na segunda fase, introduzem uma penalização por atraso, baseada na distribuição estatística do tempo que um utilizador real demora a abandonar após ativar a deteção. Este método em fases é superior a otimizar ambos os objetivos simultaneamente, pois o método conjunto pode ficar preso a ótimos locais, por exemplo, aprendendo a detectar rapidamente mas de forma superficial.
A versão preliminar do SWE-Check já está disponível no Windsurf Next (atalho cmd+U), e posteriormente será integrada na versão oficial do Windsurf.
(Origem: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GatePreIPOsLaunchesWithSpaceX
124.42K Popularidade
#
GateMarchTransparencyReport
45.43K Popularidade
#
IsraelStrikesIranBTCPlunges
29.84K Popularidade
#
GoldmanSachsFilesBitcoinIncomeETF
778.68K Popularidade
#
USBlocksStraitofHormuz
751.84K Popularidade

Fixar

O Windsurf treinou um pequeno modelo especializado em detectar bugs usando RL, e na avaliação interna igualou o Claude Opus 4.6

Tópicos em destaque

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Fixar