Le cadre BinEval utilise des questions vrai/faux pour noter automatiquement l'IA, résolvant les problèmes de faux score parfait et d'opacité des modèles de jugement.

ME AI Message, selon la surveillance de Beating, l'équipe de recherche de Capital One a proposé le cadre d'évaluation BinEval, qui décompose automatiquement les critères de notation complexes en questions spécifiques de type « oui ou non », résolvant ainsi les problèmes de notation opaque et de notes gonflées. Le cadre fait répondre le modèle d'évaluation à chaque question vrai/faux une par une, puis calcule le score en fonction du ratio de bonnes réponses. Lors de tests sur trois ensembles de données courants, la qualité de notation de BinEval utilisant de grands modèles comme Claude Sonnet 4 a égalé ou surpassé des outils d'évaluation courants comme UniEval, excellant notamment dans la détection de réponses qui semblent cohérentes en surface mais contiennent des erreurs factuelles. Prenant l'exemple d'une évaluation de résumé concernant une interception d'avion, bien que le résumé soit fluide et que les entités ainsi que les modèles d'avions soient corrects, le résumé a inversé les affirmations du Pentagone et de la Russie et a également inventé une URL. L'ancien juge IA, ne regardant que la surface, a directement attribué la note parfaite de 5,0. En revanche, BinEval, grâce à sept questions vrai/faux, a précisément identifié quatre erreurs factuelles et a donné une note de 1,57, très proche de la note humaine de 2,0. Le cahier d'erreurs des questions vrai/faux peut servir à optimiser les propres critères d'évaluation du modèle juge, ainsi qu'à modifier automatiquement les instructions de rédaction. Les expériences montrent que dans les tests de respect des instructions, l'optimisation par feedback peut améliorer de 17 points de pourcentage le taux de conformité du format et de la structure des phrases. Cependant, pour les exigences rigides nécessitant des calculs mathématiques comme la limitation du nombre de mots, les outils d'optimisation restent impuissants, et une décomposition excessive des exigences peut au contraire rendre les critères d'évaluation trop stricts. (Source : Beating)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé