BinEval décompose l'évaluation en questions vrai/faux, c'est une astuce astucieuse. L'espace pour gonfler les notes est directement compressé, et l'illusion d'une surface fluide mais d'erreurs factuelles peut enfin être démasquée.

Voir l'original
CoinNetwork
BinEval框架用是非题自动给AI打分,解决裁判模型虚报满分和不透明痛点
BinEval transforme l'évaluation en questions à réponse binaire, chaque question est répondue puis notée selon le taux de bonnes réponses, ce qui améliore la transparence et réduit les fausses déclarations. Les recherches montrent que ses scores sont proches ou supérieurs à ceux d'Unieval sur plusieurs ensembles de données, et qu'il est particulièrement doué pour détecter les réponses qui semblent cohérentes en surface mais sont factuellement erronées. Prenant l'exemple du résumé d'interception aérienne, l'ancien juge a attribué la note maximale de 5,0, tandis que BinEval a obtenu 1,57 via sept questions binaires, proche du score humain de 2,0. L'optimisation par retour d'information améliore la conformité formelle d'environ 17 points de pourcentage, mais reste difficile à améliorer pour les contraintes strictes comme le nombre de mots.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé