Stanford et Berkeley proposent LLM-as-a-Verifier, tout en battant à nouveau les records de Terminal-Bench et SWE-Bench

robot
Création du résumé en cours
ME News Actualités, le 14 avril (UTC+8), selon la surveillance de 1M AI News, lorsque l'IA de programmation agit sur une seule tâche, effectuer plusieurs essais peut souvent conduire à des solutions différentes, dont certaines peuvent être incorrectes. Si l'on peut automatiquement sélectionner la meilleure, le taux de réussite global peut dépasser celui d'une seule exécution. La question est comment faire cette sélection : faire qu'un autre modèle serve de juge pour attribuer une note (c'est-à-dire LLM-as-a-Judge) est la méthode principale actuelle, mais la granularité de la notation est trop grossière, donnant souvent des scores identiques pour des solutions différentes, ce qui ne permet pas de distinguer la meilleure. Le laboratoire d'IA de Stanford et le laboratoire Sky Computing de Berkeley, en collaboration avec Nvidia, ont proposé LLM-as-a-Verifier, améliorant ce processus de sélection. Au lieu de se baser uniquement sur la note finale donnée par le juge, ils lisent la distribution de probabilité du modèle à chaque niveau de score, puis calculent une valeur de récompense continue à partir de celle-ci. Par ailleurs, ils font répéter le jugement plusieurs fois par le juge pour en faire la moyenne, afin d’éliminer les biais accidentels, et décomposent l’évaluation globale en trois dimensions indépendantes (conformité à la tâche, format de sortie correct, présence de signaux d’erreur) pour une vérification séparée. Dans l’expérimentation, Gemini 2.5 Flash a été utilisé comme vérificateur, avec un taux de précision de 74,7 % pour une seule vérification, contre 57,0 % pour le juge traditionnel ; après 16 répétitions, le Verifier atteint 77,4 %, contre 70,2 % pour le juge. Le juge traditionnel a 26,5 % de résultats en égalité, tandis que le Verifier affiche un taux d’égalité de 0 % dans toutes les configurations. Résultats concrets : sur Terminal-Bench 2, faire exécuter GPT-5.4 cinq fois la même tâche, la réussite d’une sélection aléatoire est de 81,8 %, tandis qu’après sélection par le Verifier, elle monte à 86,4 %. Sur SWE-Bench Verified, en prenant une solution parmi Claude Opus 4.5, Claude Opus 4.6 et Gemini 3 Flash (total de 3 solutions), la réussite passe de 76,1 % à 77,8 %. Au 9 avril, date de publication, ces deux méthodes étaient en tête du classement. Le cadre a été open source. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé