Stanford et Berkeley proposent LLM-as-a-Verifier, tout en battant à nouveau les records de Terminal-Bench et SWE-Bench

robot
Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon la surveillance de 1M AI News, lorsque l’IA de programmation agit sur une tâche unique, effectuer plusieurs essais peut souvent conduire à des solutions différentes, dont certaines peuvent être incorrectes. Si l’on peut automatiquement sélectionner la meilleure, le taux de réussite global peut dépasser celui d’une seule exécution. La question est comment faire cette sélection : faire qu’un autre modèle joue le rôle de juge en attribuant une note (c’est-à-dire LLM-as-a-Judge) est la méthode principale actuelle, mais la granularité de la notation est trop grossière, donnant souvent des scores identiques pour des solutions différentes, ce qui ne permet pas de hiérarchiser. Le laboratoire d’IA de Stanford et le laboratoire Sky Computing de Berkeley, en collaboration avec Nvidia, ont proposé LLM-as-a-Verifier, qui améliore ce processus de sélection. Il ne se limite plus à regarder la note finale donnée par le juge, mais lit la distribution de probabilité du modèle à chaque niveau de score, calculant ainsi une valeur de récompense continue. Par ailleurs, le juge répète l’évaluation plusieurs fois pour en faire la moyenne afin d’éliminer les biais aléatoires, et l’évaluation globale est décomposée en trois dimensions indépendantes (conformité à la tâche, format de sortie correct, présence de signaux d’erreur) vérifiées séparément. Dans l’expérimentation, Gemini 2.5 Flash a été utilisé comme vérificateur, avec un taux de précision de 74,7 % pour une seule vérification, contre 57,0 % pour le juge traditionnel ; après 16 répétitions, le Verifier atteint 77,4 %, contre 70,2 % pour le juge. Le juge traditionnel a 26,5 % de résultats en égalité, tandis que le Verifier affiche un taux d’égalité de 0 % dans toutes les configurations. Résultats concrets : sur Terminal-Bench 2, faire exécuter GPT-5.4 cinq fois la même tâche, la réussite d’un choix aléatoire est de 81,8 %, tandis qu’après sélection par le Verifier, elle monte à 86,4 %. Sur SWE-Bench Verified, en prenant une solution parmi Claude Opus 4.5, Claude Opus 4.6 et Gemini 3 Flash (au total 3 solutions), la sélection permet d’augmenter le taux de 76,1 % à 77,8 %. Au 9 avril, ces deux méthodes étaient en tête du classement. Le cadre est open source. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler