O Windsurf treinou um pequeno modelo especializado em detectar bugs usando RL, e na avaliação interna igualou o Claude Opus 4.6

robot
Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização do Beating, a empresa-mãe do ferramenta de programação AI Windsurf, Cognition AI, em colaboração com a empresa de treino de IA Applied Compute, treinou um modelo especializado na deteção de bugs de código, chamado SWE-Check, através de aprendizagem por reforço. Este modelo analisa as alterações de código atuais do utilizador (diff), marca automaticamente possíveis bugs introduzidos e fornece sugestões de correção.
Nos testes de avaliação com distribuição semelhante aos dados de treino, a pontuação F1 do SWE-Check igualou a do Claude Opus 4.6 (a diferença caiu de 0,09 para 0); nos testes de avaliação com distribuição diferente, a diferença reduziu-se de 0,49 para 0,29, ainda atrás do modelo de ponta, mas com melhorias evidentes.
A principal vantagem reside na velocidade e no custo: o SWE-Check é um fator de 10 mais rápido que os modelos de ponta, com custos de inferência significativamente mais baixos, permitindo deteção de bugs instantânea e gratuita dentro do IDE, algo que modelos grandes como o Opus 4.6 não conseguem fazer diretamente.
Existem duas abordagens de design na formação que merecem destaque:

  1. Linearização da recompensa (reward linearization): a equipa pretende otimizar a métrica global F-beta, mas essa métrica não pode ser desmembrada diretamente em amostras individuais. Utilizaram uma aproximação de primeira ordem para transformar a métrica global numa função de recompensa calculável por amostra, permitindo que o treino melhore efetivamente a métrica global. Nas versões iniciais, a taxa de falsos positivos era elevada, por isso ajustaram o beta de 1 para 0,5 para enfatizar a precisão.
  2. Treino em duas fases: na primeira fase, maximizam apenas a capacidade de deteção de bugs, sem penalizar atrasos; na segunda fase, introduzem uma penalização por atraso, baseada na distribuição estatística do tempo que um utilizador real demora a abandonar após ativar a deteção. Este método em fases é superior a otimizar ambos os objetivos simultaneamente, pois o método conjunto pode ficar preso a ótimos locais, por exemplo, aprendendo a detectar rapidamente mas de forma superficial.
    A versão preliminar do SWE-Check já está disponível no Windsurf Next (atalho cmd+U), e posteriormente será integrada na versão oficial do Windsurf.
    (Origem: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar