Nouvelles de CoinWorld, le cadre BinEval évalue automatiquement l'IA via des questions vrai/faux, visant à résoudre les problèmes de notation maximaliste et d'opacité des juges modèles. L'équipe de recherche de Capital One a proposé ce cadre, décomposant les critères de notation complexes en questions « oui ou non » à choix unique, garantissant que le modèle d'évaluation répond une par une, puis calcule le score en fonction du pourcentage de bonnes réponses. Lors des tests sur trois ensembles de données grand public, la qualité de notation de BinEval utilisant de grands modèles comme Claude Sonnet 4 correspond ou dépasse celle d'outils d'évaluation courants tels qu'Unieval, notamment pour identifier les réponses factuellement erronées mais en apparence cohérentes. Prenant l'exemple d'une évaluation de résumé impliquant une interception d'avion, l'ancien juge IA, ne regardant que la surface, a donné un score parfait de 5,0, tandis que BinEval, via sept questions vrai/faux, a identifié quatre erreurs factuelles et a attribué un score de 1,57, proche du score humain de 2,0. Les expériences montrent que l'optimisation par retour peut améliorer de 17 points de pourcentage le respect du format et de la structure des phrases, mais pour les capacités purement mathématiques comme le respect du nombre de mots, l'outil d'optimisation reste impuissant.

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

3 J'aime

Récompense
3
5
1
Partager

Commentaire

Ajouter un commentaire

L2NightCourier

· Il y a 2h

17% d'amélioration du format, c'est pas mal, mais la contrainte de nombre de mots est insoluble — j'ai l'impression que les règles strictes sont faciles à appliquer, alors que la compréhension souple est difficile.

Voir l'originalRépondre0

WalletPermissionAdministrator

· Il y a 2h

La conception de questions vrai/faux est vraiment intelligente, car elle transforme la notation subjective en questions objectives vérifiables, ce qui comprime directement l'espace de fausses déclarations.

Voir l'originalRépondre0

DepegDaydream

· Il y a 2h

Plusieurs ensembles de données approchent ou dépassent Unieval, cette capacité de transfert a quelque chose de spécial, ce n'est pas un jouet de surapprentissage.

Voir l'originalRépondre0

ForkingDrama

· Il y a 2h

1.57 contre 5.0, cet écart est trop réel, l'illusion d'un texte fluide en surface peut enfin être détectée.

Voir l'originalRépondre0

MosaicBow

· Il y a 2h

L'évaluation décomposée en sept questions est bien plus fine que l'échelle vague de 1 à 5, et Human Annotation 2.0 indique que la direction est bonne.

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradFiCFDGoldMaster
2,22M Popularité
#
SaylorHintsAtMoreBTC
8,5M Popularité
#
IsraelStrikesIranBTCPlunges
66,23K Popularité
#
PredictWorldCupShare20000U
490,93K Popularité
#
SolanaEcosystemANSEMSurges
22M Popularité

Épinglé

BinEval框架用是非题自动给AI打分，解决裁判模型虚报满分和不透明痛点

Sujets populaires

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Épinglé