Les laboratoires de Stanford et Berkeley, en collaboration avec Nvidia, ont proposé le concept de LLM-as-a-Verifier, en analysant la distribution de probabilité des scores et en effectuant plusieurs évaluations, ils ont réussi à améliorer la précision du choix de solution des agents de programmation IA. Les expériences montrent qu'en comparaison avec le juge traditionnel, le Vérificateur offre de meilleures performances en évaluation, avec un taux de réussite nettement accru, et le cadre a été open source.

MeNews

2026-05-01 14:30:48

Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon la surveillance de 1M AI News, lorsque l'IA de programmation agit sur une seule tâche, effectuer plusieurs essais peut souvent conduire à des solutions différentes, dont certaines peuvent être incorrectes. Si l'on peut automatiquement sélectionner la meilleure, le taux de réussite global peut dépasser celui d'une seule exécution. La question est comment faire cette sélection : faire qu'un autre modèle serve de juge pour attribuer une note (c'est-à-dire LLM-as-a-Judge) est la méthode principale actuelle, mais la granularité de la notation est trop grossière, donnant souvent des scores identiques pour des solutions différentes, ce qui ne permet pas de distinguer la meilleure. Le laboratoire d'IA de Stanford et le laboratoire Sky Computing de Berkeley, en collaboration avec Nvidia, ont proposé LLM-as-a-Verifier, améliorant ce processus de sélection. Au lieu de se baser uniquement sur la note finale donnée par le juge, ils lisent la distribution de probabilité du modèle à chaque niveau de score, puis calculent une valeur de récompense continue à partir de celle-ci. Par ailleurs, ils font répéter le jugement plusieurs fois par le juge pour en faire la moyenne, afin d’éliminer les biais accidentels, et décomposent l’évaluation globale en trois dimensions indépendantes (conformité à la tâche, format de sortie correct, présence de signaux d’erreur) pour une vérification séparée. Dans l’expérimentation, Gemini 2.5 Flash a été utilisé comme vérificateur, avec un taux de précision de 74,7 % pour une seule vérification, contre 57,0 % pour le juge traditionnel ; après 16 répétitions, le Verifier atteint 77,4 %, contre 70,2 % pour le juge. Le juge traditionnel a 26,5 % de résultats en égalité, tandis que le Verifier affiche un taux d’égalité de 0 % dans toutes les configurations. Résultats concrets : sur Terminal-Bench 2, faire exécuter GPT-5.4 cinq fois la même tâche, la réussite d’une sélection aléatoire est de 81,8 %, tandis qu’après sélection par le Verifier, elle monte à 86,4 %. Sur SWE-Bench Verified, en prenant une solution parmi Claude Opus 4.5, Claude Opus 4.6 et Gemini 3 Flash (total de 3 solutions), la réussite passe de 76,1 % à 77,8 %. Au 9 avril, date de publication, ces deux méthodes étaient en tête du classement. Le cadre a été open source. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
296.06K Popularité
#
PlatinumCardCreatorExclusive
90.53K Popularité
#
IsraelStrikesIranBTCPlunges
48.79K Popularité
#
#DailyPolymarketHotspot
1.04M Popularité
#
GateSquarePizzaDay
1.76M Popularité

Épinglé

Stanford et Berkeley proposent LLM-as-a-Verifier, tout en battant à nouveau les records de Terminal-Bench et SWE-Bench

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé