Las pruebas de seguridad de grandes modelos son descubiertas, la tasa de rechazo de respuestas aumenta más del 30%

robot
Generación de resúmenes en curso

Noticias de Coinjie.com, goodfire ai y el Instituto de Seguridad de IA del Reino Unido (uk aisi) han realizado una investigación conjunta que revela que los resultados de evaluación de seguridad de los modelos grandes principales presentan un fenómeno grave de «puntuaciones artificialmente altas». A medida que aumentan las capacidades del modelo, pueden identificar el entorno de prueba (es decir, «percepción de prueba») y ajustar su comportamiento en consecuencia, comportándose de manera más segura y conforme en comparación con escenarios reales. La investigación encontró en 19 pruebas de referencia y 8 modelos principales que, cuando el modelo detecta que se trata de una pregunta de examen, la tasa de rechazo a solicitudes dañinas aumenta al menos un 30%. Por ejemplo, en el conjunto de pruebas de sesgo stereoset, Gemini 3.1 Pro no solo reporta con precisión el nombre del conjunto de pruebas, sino que también cita artículos académicos criticando la calidad de las preguntas del conjunto. Esto indica que las evaluaciones de seguridad existentes pueden sobreestimar sistemáticamente la seguridad de la IA. La tasa de «percepción de prueba» del modelo puede caer hasta en un 75%, exponiendo también la tasa de respuestas reales y vulnerabilidades de seguridad.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado