El marco BinEval utiliza preguntas de verdadero/falso para calificar automáticamente a la IA, resolviendo el problema de que los modelos de evaluación reportan puntuaciones perfectas falsas y la falta de transparencia.

ME AI mensaje, según el monitoreo de Beating, el equipo de investigación de Capital One propuso el marco de evaluación BinEval, que descompone automáticamente criterios de puntuación complejos en preguntas específicas de "sí o no", resolviendo el problema de que la puntuación sea como una caja negra y las calificaciones infladas. El marco hace que el modelo de evaluación responda una por una a cada pregunta de verdadero o falso, y finalmente calcula la puntuación con la proporción de respuestas correctas. En pruebas con tres conjuntos de datos principales, la calidad de puntuación de BinEval utilizando modelos grandes como Claude Sonnet 4 coincidió o superó a herramientas de evaluación principales como UniEval, destacándose especialmente para detectar respuestas que parecen fluidas pero contienen errores factuales. Tomando como ejemplo una evaluación de resumen que involucra la intercepción de un avión, aunque el resumen se lee fluidamente y las entidades y modelos de avión son correctos, el resumen invirtió las afirmaciones del Pentágono y Rusia, e inventó una URL. El antiguo juez de IA, al solo mirar la superficie, le dio directamente una puntuación máxima de 5.0. Mientras que BinEval, con siete preguntas de verdadero o falso, detectó con precisión cuatro errores factuales y otorgó 1.57 puntos, muy cerca de los 2.0 puntos dados por humanos. El cuaderno de errores de las preguntas de verdadero o falso puede usarse tanto para optimizar los propios criterios de evaluación del modelo juez, como para modificar automáticamente las indicaciones de escritura. Los experimentos muestran que, en pruebas de cumplimiento de instrucciones, la optimización mediante retroalimentación puede aumentar la tasa de cumplimiento de formato y estructura de oraciones en 17 puntos porcentuales. Sin embargo, para habilidades duras que requieren cálculo matemático, como limitar el número de palabras, la herramienta de optimización sigue siendo impotente, y una descomposición excesiva de requisitos puede hacer que los criterios de evaluación sean demasiado estrictos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado