🔥Investigador: Las pruebas de referencia principales de IA presentan fallos sistémicos, y los datos de los rankings pueden estar gravemente distorsionados


El 10 de abril, el investigador de IA Hao Wang publicó una investigación que revela que varias pruebas de referencia de IA reconocidas en la industria, incluyendo SWE-bench Verified y Terminal-Bench, contienen vulnerabilidades que pueden ser explotadas sistemáticamente — su equipo construyó un Agente que, sin resolver ninguna tarea real, obtuvo una puntuación perfecta del 100% en dos pruebas de referencia.
El ejemplo típico es el siguiente: en SWE-bench Verified, se inserta un hook pytest de 10 líneas en el repositorio de código, que antes de ejecutar la prueba modifica automáticamente todos los resultados a "Aprobado", sin que el sistema de puntuación detecte nada, logrando un puntaje perfecto en las 500 preguntas; aunque Terminal-Bench…
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado