ME AI Message, selon la surveillance de Beating, l'équipe de recherche de Capital One a proposé le cadre d'évaluation BinEval, qui décompose automatiquement les critères de notation complexes en questions spécifiques de type « oui ou non », résolvant ainsi les problèmes de notation opaque et de notes gonflées. Le cadre fait répondre le modèle d'évaluation à chaque question vrai/faux une par une, puis calcule le score en fonction du ratio de bonnes réponses. Lors de tests sur trois ensembles de données courants, la qualité de notation de BinEval utilisant de grands modèles comme Claude Sonnet 4 a égalé ou surpassé des outils d'évaluation courants comme UniEval, excellant notamment dans la détection de réponses qui semblent cohérentes en surface mais contiennent des erreurs factuelles. Prenant l'exemple d'une évaluation de résumé concernant une interception d'avion, bien que le résumé soit fluide et que les entités ainsi que les modèles d'avions soient corrects, le résumé a inversé les affirmations du Pentagone et de la Russie et a également inventé une URL. L'ancien juge IA, ne regardant que la surface, a directement attribué la note parfaite de 5,0. En revanche, BinEval, grâce à sept questions vrai/faux, a précisément identifié quatre erreurs factuelles et a donné une note de 1,57, très proche de la note humaine de 2,0. Le cahier d'erreurs des questions vrai/faux peut servir à optimiser les propres critères d'évaluation du modèle juge, ainsi qu'à modifier automatiquement les instructions de rédaction. Les expériences montrent que dans les tests de respect des instructions, l'optimisation par feedback peut améliorer de 17 points de pourcentage le taux de conformité du format et de la structure des phrases. Cependant, pour les exigences rigides nécessitant des calculs mathématiques comme la limitation du nombre de mots, les outils d'optimisation restent impuissants, et une décomposition excessive des exigences peut au contraire rendre les critères d'évaluation trop stricts. (Source : Beating)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
TradFiCFDGoldMaster
2,21M Popularité
#
SaylorHintsAtMoreBTC
8,52M Popularité
#
IsraelStrikesIranBTCPlunges
66,43K Popularité
#
PredictWorldCupShare20000U
535,83K Popularité
#
SolanaEcosystemANSEMSurges
21,97M Popularité

Épinglé

Le cadre BinEval utilise des questions vrai/faux pour noter automatiquement l'IA, résolvant les problèmes de faux score parfait et d'opacité des modèles de jugement.

Sujets populaires

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Épinglé