Les laboratoires de Stanford et Berkeley en collaboration avec Nvidia ont proposé le concept de LLM-as-a-Verifier, en analysant la distribution de probabilité des scores et en effectuant plusieurs évaluations, ils ont réussi à améliorer la précision du choix des solutions par l'agent de programmation IA. Les expériences montrent qu'en comparaison avec le juge traditionnel, le vérificateur (Verifier) offre de meilleures performances en évaluation, avec un taux de réussite nettement accru, et le cadre a été open source.

MeNews

2026-05-01 12:27:18

Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon la surveillance de 1M AI News, lorsque l’IA de programmation agit sur une tâche unique, effectuer plusieurs essais peut souvent conduire à des solutions différentes, dont certaines peuvent être incorrectes. Si l’on peut automatiquement sélectionner la meilleure, le taux de réussite global peut dépasser celui d’une seule exécution. La question est comment faire cette sélection : faire qu’un autre modèle joue le rôle de juge en attribuant une note (c’est-à-dire LLM-as-a-Judge) est la méthode principale actuelle, mais la granularité de la notation est trop grossière, donnant souvent des scores identiques pour des solutions différentes, ce qui ne permet pas de hiérarchiser. Le laboratoire d’IA de Stanford et le laboratoire Sky Computing de Berkeley, en collaboration avec Nvidia, ont proposé LLM-as-a-Verifier, qui améliore ce processus de sélection. Il ne se limite plus à regarder la note finale donnée par le juge, mais lit la distribution de probabilité du modèle à chaque niveau de score, calculant ainsi une valeur de récompense continue. Par ailleurs, le juge répète l’évaluation plusieurs fois pour en faire la moyenne afin d’éliminer les biais aléatoires, et l’évaluation globale est décomposée en trois dimensions indépendantes (conformité à la tâche, format de sortie correct, présence de signaux d’erreur) vérifiées séparément. Dans l’expérimentation, Gemini 2.5 Flash a été utilisé comme vérificateur, avec un taux de précision de 74,7 % pour une seule vérification, contre 57,0 % pour le juge traditionnel ; après 16 répétitions, le Verifier atteint 77,4 %, contre 70,2 % pour le juge. Le juge traditionnel a 26,5 % de résultats en égalité, tandis que le Verifier affiche un taux d’égalité de 0 % dans toutes les configurations. Résultats concrets : sur Terminal-Bench 2, faire exécuter GPT-5.4 cinq fois la même tâche, la réussite d’un choix aléatoire est de 81,8 %, tandis qu’après sélection par le Verifier, elle monte à 86,4 %. Sur SWE-Bench Verified, en prenant une solution parmi Claude Opus 4.5, Claude Opus 4.6 et Gemini 3 Flash (au total 3 solutions), la sélection permet d’augmenter le taux de 76,1 % à 77,8 %. Au 9 avril, ces deux méthodes étaient en tête du classement. Le cadre est open source. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
451.33K Popularité
#
USSeeksStrategicBitcoinReserve
58.69M Popularité
#
IsraelStrikesIranBTCPlunges
37.26K Popularité
#
BitcoinETFOptionLimitQuadruples
987.18K Popularité
#
#FedHoldsRateButDividesDeepen
30.82K Popularité

Épingler

Stanford et Berkeley proposent LLM-as-a-Verifier, tout en battant à nouveau les records de Terminal-Bench et SWE-Bench

Sujets populaires

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Épingler