Le modèle SWE-Check, développé en collaboration entre Cognition AI et Applied Compute, utilise l'apprentissage par renforcement pour la détection de bugs dans le code, avec une vitesse et un coût nettement supérieurs aux modèles de pointe. Bien que l'écart avec Claude Opus 4.6 se soit réduit lors des évaluations, une optimisation supplémentaire est encore nécessaire. Ce modèle adopte une récompense linéaire et une méthode d'entraînement en deux étapes, visant à améliorer la précision de la détection et l'efficacité opérationnelle. La version préliminaire est disponible sur Windsurf Next.

MeNews

2026-05-08 09:06:33

Création du résumé en cours

ME News Actualités, le 15 avril (UTC+8), selon la surveillance de Dongcha Beating, la société mère de l’outil de programmation IA Windsurf, Cognition AI, en collaboration avec la société d’entraînement IA Applied Compute, a entraîné un modèle spécialisé dans la détection de bugs de code, SWE-Check, via un apprentissage par renforcement. Ce modèle analyse les modifications de code actuelles de l’utilisateur (diff), marque automatiquement les bugs potentiellement introduits et propose des suggestions de correction. Lors des évaluations sur une distribution de données d’entraînement, le score F1 de SWE-Check a égalé celui de Claude Opus 4.6 (la différence passant de 0,09 à 0); lors des évaluations sur une distribution hors entraînement, la différence est passée de 0,49 à 0,29, toujours en retard par rapport aux modèles de pointe mais avec des progrès significatifs. L’avantage clé réside dans la vitesse et le coût : la vitesse d’exécution de SWE-Check est dix fois plus rapide que celle des modèles de pointe, et le coût d’inférence est également considérablement réduit, permettant une détection instantanée et gratuite des bugs dans l’IDE, ce que des grands modèles comme Opus 4.6 ne peuvent pas faire directement. Deux méthodes de formation méritent une attention particulière : 1. La linéarisation de la récompense (reward linearization) : l’équipe souhaite optimiser l’indicateur global F-beta, mais cet indicateur ne peut pas être décomposé directement en échantillons individuels. Ils ont transformé cet indicateur en une fonction de récompense calculable échantillon par échantillon via une approximation du premier ordre, permettant à l’entraînement d’améliorer efficacement cet indicateur global. Les versions précoces avaient un taux de faux positifs trop élevé, l’équipe a ajusté beta de 1 à 0,5 pour mettre davantage l’accent sur la précision. 2. La formation en deux étapes après la formation initiale : la première étape maximise purement la capacité de détection de bugs sans pénaliser la latence ; la deuxième étape introduit une pénalité de latence basée sur la distribution statistique du temps que mettent les utilisateurs réels pour quitter après avoir déclenché la détection. Cette approche par étapes est préférable à une optimisation simultanée des deux objectifs, qui peut facilement conduire à un optimum local, par exemple apprendre à être très rapide mais avec une analyse superficielle. La version préliminaire de SWE-Check est déjà en ligne dans Windsurf Next (raccourci cmd+U), et sera intégrée dans la version officielle de Windsurf. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
783.59K Popularité
#
BitcoinFallsBelow80K
95.03M Popularité
#
IsraelStrikesIranBTCPlunges
44.37K Popularité
#
IranUSConflictEscalates
95K Popularité
#
OilPriceRollerCoaster
308.48K Popularité

Épingler

Windsurf a entraîné un petit modèle spécialisé dans la détection de bugs avec RL, et dans l’évaluation interne, il a égalé Claude Opus 4.6

Sujets populaires

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Épingler