Windsurf a entraîné un petit modèle spécialisé dans la détection de bugs avec RL, et dans l’évaluation interne, il a égalé Claude Opus 4.6

robot
Création du résumé en cours

ME News Actualités, le 15 avril (UTC+8), selon la surveillance de Dongcha Beating, la société mère de l’outil de programmation IA Windsurf, Cognition AI, en collaboration avec la société d’entraînement IA Applied Compute, a entraîné un modèle spécialisé dans la détection de bugs de code, SWE-Check, via un apprentissage par renforcement. Ce modèle analyse les modifications de code actuelles de l’utilisateur (diff), marque automatiquement les bugs potentiellement introduits et propose des suggestions de correction. Lors des évaluations sur une distribution de données d’entraînement, le score F1 de SWE-Check a égalé celui de Claude Opus 4.6 (la différence passant de 0,09 à 0); lors des évaluations sur une distribution hors entraînement, la différence est passée de 0,49 à 0,29, toujours en retard par rapport aux modèles de pointe mais avec des progrès significatifs. L’avantage clé réside dans la vitesse et le coût : la vitesse d’exécution de SWE-Check est dix fois plus rapide que celle des modèles de pointe, et le coût d’inférence est également considérablement réduit, permettant une détection instantanée et gratuite des bugs dans l’IDE, ce que des grands modèles comme Opus 4.6 ne peuvent pas faire directement. Deux méthodes de formation méritent une attention particulière : 1. La linéarisation de la récompense (reward linearization) : l’équipe souhaite optimiser l’indicateur global F-beta, mais cet indicateur ne peut pas être décomposé directement en échantillons individuels. Ils ont transformé cet indicateur en une fonction de récompense calculable échantillon par échantillon via une approximation du premier ordre, permettant à l’entraînement d’améliorer efficacement cet indicateur global. Les versions précoces avaient un taux de faux positifs trop élevé, l’équipe a ajusté beta de 1 à 0,5 pour mettre davantage l’accent sur la précision. 2. La formation en deux étapes après la formation initiale : la première étape maximise purement la capacité de détection de bugs sans pénaliser la latence ; la deuxième étape introduit une pénalité de latence basée sur la distribution statistique du temps que mettent les utilisateurs réels pour quitter après avoir déclenché la détection. Cette approche par étapes est préférable à une optimisation simultanée des deux objectifs, qui peut facilement conduire à un optimum local, par exemple apprendre à être très rapide mais avec une analyse superficielle. La version préliminaire de SWE-Check est déjà en ligne dans Windsurf Next (raccourci cmd+U), et sera intégrée dans la version officielle de Windsurf. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler