BinEval separar la evaluación en preguntas de sí/no es un truco ingenioso, el espacio para inflar puntuaciones se comprime directamente, y las alucinaciones que parecen fluidas pero son factualmente incorrectas finalmente pueden ser detectadas.

Ver original
CoinNetwork
El marco BinEval utiliza preguntas de verdadero/falso para calificar automáticamente a la IA, resolviendo los problemas de puntuación perfecta falsa y falta de transparencia en los modelos de jueces.
BinEval convierte la evaluación en preguntas de verdadero/falso, que se responden una por una y se puntúan según la tasa de aciertos, mejorando la transparencia y suprimiendo informes falsos. Las investigaciones muestran que su puntuación se acerca o supera a Unieval en múltiples conjuntos de datos, y es especialmente buena para detectar respuestas que son superficialmente coherentes pero fácticamente incorrectas. Tomando como ejemplo el resumen de intercepción de aeronaves, el evaluador anterior otorgó una puntuación perfecta de 5.0, mientras que BinEval obtuvo 1.57 a través de siete preguntas de verdadero/falso, cercano al 2.0 humano. La optimización con retroalimentación mejora el cumplimiento del formato en aproximadamente 17 puntos porcentuales, pero sigue siendo difícil mejorar restricciones rígidas como el número de palabras.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado