Les laboratoires de Stanford et Berkeley, en collaboration avec Nvidia, ont proposé le concept de LLM-as-a-Verifier, en analysant la distribution de probabilité des scores et en effectuant plusieurs évaluations, ils ont réussi à améliorer la précision du choix de solution de l'agent de programmation IA. Les expériences montrent qu'en comparaison avec le juge traditionnel, le Vérificateur offre de meilleures performances en évaluation, avec un taux de réussite significativement accru, et le cadre a été open source.

MeNews

2026-05-01 06:03:18

Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon la surveillance de 1M AI News, lorsque des agents de programmation IA traitent une tâche unique, effectuer plusieurs essais peut souvent conduire à des solutions différentes, dont certaines peuvent être incorrectes. Si l’on peut automatiquement sélectionner la meilleure, le taux de réussite global peut dépasser celui d’une seule exécution. La question est comment faire cette sélection : faire qu’un autre modèle agisse en tant que juge pour attribuer une note (c’est-à-dire LLM-as-a-Judge) est la méthode principale actuelle, mais la granularité de la notation est trop grossière, donnant souvent des scores identiques pour des solutions différentes, ce qui ne permet pas de hiérarchiser. Le laboratoire d’IA de Stanford et le laboratoire Sky Computing de Berkeley, en collaboration avec Nvidia, ont proposé LLM-as-a-Verifier, qui améliore ce processus de sélection. Il ne se limite plus à regarder la note finale donnée par le juge, mais lit la distribution de probabilité du modèle à chaque niveau de score, puis calcule une valeur de récompense continue. En même temps, le juge répète l’évaluation plusieurs fois pour en faire la moyenne afin d’éliminer les biais aléatoires, et l’évaluation globale est décomposée en trois dimensions indépendantes (conformité à la tâche, format de sortie correct, présence de signaux d’erreur) pour une vérification séparée. Dans l’expérimentation, Gemini 2.5 Flash a été utilisé comme vérificateur, avec un taux de précision de 74,7 % pour une seule vérification, contre 57,0 % pour le juge traditionnel ; après 16 répétitions, le Verifier atteint 77,4 %, contre 70,2 % pour le juge. Le juge traditionnel a 26,5 % de résultats en égalité, tandis que le Verifier affiche un taux d’égalité de 0 % dans toutes les configurations. Résultats concrets : sur Terminal-Bench 2, faire exécuter GPT-5.4 cinq fois la même tâche, la réussite d’un choix aléatoire est de 81,8 %, tandis qu’après sélection par le Verifier, elle monte à 86,4 %. Sur SWE-Bench Verified, en prenant une solution parmi Claude Opus 4.5, Claude Opus 4.6 et Gemini 3 Flash (au total 3 solutions), la sélection permet d’augmenter le taux de 76,1 % à 77,8 %. Au 9 avril, date de publication, ces deux méthodes étaient en tête du classement. Le cadre a été open source. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
441.25K Popularité
#
USSeeksStrategicBitcoinReserve
58.69M Popularité
#
IsraelStrikesIranBTCPlunges
37.26K Popularité
#
BitcoinETFOptionLimitQuadruples
981.36K Popularité
#
#FedHoldsRateButDividesDeepen
30.6K Popularité

Épingler

Stanford et Berkeley proposent LLM-as-a-Verifier, tout en battant à nouveau les records de Terminal-Bench et SWE-Bench

Sujets populaires

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Épingler