Investigador: Todas las pruebas de referencia de IA principales pueden ser "engañadas", y los datos de los rankings pueden estar gravemente distorsionados

robot
Generación de resúmenes en curso

La noticia de CoinWorld, la noticia de ME News, el 10 de abril (UTC+8), el investigador de IA Hao Wang publicó una investigación que revela que varias de las pruebas de referencia de IA más autorizadas en la industria, incluyendo SWE-bench Verified y Terminal-Bench, contienen vulnerabilidades que pueden ser explotadas sistemáticamente: su equipo construyó un agente que, sin resolver ninguna tarea real, obtuvo una puntuación perfecta del 100% en ambas pruebas. Los ejemplos típicos son los siguientes: SWE-bench Verified: insertó un hook de pytest de 10 líneas en el repositorio de código, que antes de ejecutar la prueba altera automáticamente todos los resultados a “aprobado”, sin que el sistema de puntuación detecte nada, logrando 500 preguntas con puntuación perfecta; Terminal-Bench: aunque esta prueba protege los archivos de prueba, no protege los archivos binarios del sistema. El agente reemplazó curl, interceptó el proceso de instalación de dependencias del verificador y realizó un secuestro a nivel bajo; WebArena: las respuestas de referencia se almacenan en texto claro en un archivo de configuración JSON local, y Playwright Chromium no restringe el acceso al protocolo file://, por lo que el modelo puede leer directamente las respuestas y devolverlas tal cual. El equipo encontró 7 tipos de vulnerabilidades recurrentes en la auditoría de 8 pruebas de referencia, incluyendo: falta de aislamiento entre el agente y el evaluador, respuestas enviadas junto con las pruebas, y la susceptibilidad de los jueces LLM a ataques de inyección de indicaciones. Es importante destacar que las conductas de evasión del sistema de evaluación ya han sido observadas espontáneamente en modelos de vanguardia como o3, Claude 3.7 Sonnet y Mythos Preview, sin necesidad de instrucciones explícitas para activarlas. Basándose en esto, el equipo desarrolló la herramienta de escaneo de vulnerabilidades de pruebas de referencia WEASEL, que puede analizar automáticamente el proceso de evaluación, identificar puntos débiles en los límites de aislamiento y generar código explotable de vulnerabilidades, funcionando como una herramienta de “penetración” para las pruebas de referencia, y actualmente está abierta a solicitudes de acceso temprano.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado