Mensaje de CoinWorld: el marco BinEval califica automáticamente a la IA mediante preguntas de verdadero/falso, con el objetivo de resolver el problema de que los modelos evaluadores informan puntuaciones perfectas falsas y falta de transparencia. El equipo de investigación de Capital One propuso este marco, que desglosa los criterios de evaluación complejos en preguntas de opción única de "sí o no", asegurando que el modelo de evaluación responda una por una, y finalmente calcula la puntuación utilizando la proporción de respuestas correctas. En las pruebas con tres conjuntos de datos principales, la calidad de calificación de BinEval utilizando modelos grandes como Claude Sonnet 4 coincide o supera a herramientas de evaluación principales como Unieval, y es particularmente buena para identificar respuestas que parecen fluidas pero son factualmente incorrectas. Tomando como ejemplo la evaluación de un resumen que involucra la intercepción de un avión, el antiguo juez de IA, al solo observar la superficie, otorgó una puntuación perfecta de 5.0, mientras que BinEval identificó cuatro errores factuales a través de siete preguntas de verdadero/falso, dando una puntuación de 1.57, cercana a la puntuación humana de 2.0. Los experimentos muestran que la optimización de retroalimentación puede aumentar la tasa de cumplimiento del formato y la estructura de oraciones en 17 puntos porcentuales, pero para la fuerza bruta de cálculos matemáticos como la limitación de palabras, las herramientas de optimización aún son ineficaces.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

3 me gusta

Recompensa
3
5
1
Compartir

Comentar

Añadir un comentario

L2NightCourier

· hace2h

Una mejora del 17% en el formato está bien, pero la restricción de número de palabras no la resuelvo — siento que las reglas rígidas son fáciles de manejar, mientras que la comprensión flexible es difícil.

Ver originalResponder0

WalletPermissionAdministrator

· hace2h

El diseño de preguntas de verdadero/falso es realmente inteligente, convierte la calificación subjetiva en preguntas objetivas auditables, comprimiendo directamente el espacio de falsificación.

Ver originalResponder0

DepegDaydream

· hace2h

Múltiples conjuntos de datos se acercan o superan a Unieval, esta capacidad de transferencia tiene algo especial, no es un juguete de sobreajuste.

Ver originalResponder0

ForkingDrama

· hace2h

1.57 vs 5.0 esta brecha es demasiado real, finalmente se puede detectar el texto de alucinación que es superficialmente fluido.

Ver originalResponder0

MosaicBow

· hace2h

La evaluación de descomposición de siete preguntas es mucho más detallada que la escala general de 1 a 5; la anotación humana 2.0 indica que la dirección es correcta.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradFiCFDGoldMaster
2,22M Popularidad
#
SaylorHintsAtMoreBTC
8,5M Popularidad
#
IsraelStrikesIranBTCPlunges
66,23K Popularidad
#
PredictWorldCupShare20000U
490,93K Popularidad
#
SolanaEcosystemANSEMSurges
22M Popularidad

Fijado

El marco BinEval utiliza preguntas de verdadero/falso para calificar automáticamente a la IA, resolviendo los problemas de puntuación perfecta falsa y falta de transparencia en los modelos de jueces.

Temas de actualidad

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Fijado