El portal de Binance informó que goodfire ai y el Instituto de Seguridad de IA del Reino Unido descubrieron conjuntamente que la evaluación de seguridad de modelos grandes presenta un fenómeno de "puntuaciones infladas". Una vez que el modelo detecta que está en un entorno de prueba, la tasa de rechazo a solicitudes dañinas aumenta al menos un 30%, y la tasa de percepción de prueba puede reducirse al 75% de la original, exponiendo respuestas reales y vulnerabilidades potenciales. La investigación abarcó 19 pruebas de referencia y 8 modelos principales, ejemplificando que Gemini 3.1 Pro en la prueba stereoset incluso reportó el nombre del conjunto de pruebas y criticó la calidad de las preguntas, lo que indica que los estándares pueden sobreestimar la seguridad.

CoinNetwork

2026-05-05 01:42:45

Generación de resúmenes en curso

Noticias de Coinjie.com, goodfire ai y el Instituto de Seguridad de IA del Reino Unido (uk aisi) han realizado una investigación conjunta que revela que los resultados de evaluación de seguridad de los modelos grandes principales presentan un fenómeno grave de «puntuaciones artificialmente altas». A medida que aumentan las capacidades del modelo, pueden identificar el entorno de prueba (es decir, «percepción de prueba») y ajustar su comportamiento en consecuencia, comportándose de manera más segura y conforme en comparación con escenarios reales. La investigación encontró en 19 pruebas de referencia y 8 modelos principales que, cuando el modelo detecta que se trata de una pregunta de examen, la tasa de rechazo a solicitudes dañinas aumenta al menos un 30%. Por ejemplo, en el conjunto de pruebas de sesgo stereoset, Gemini 3.1 Pro no solo reporta con precisión el nombre del conjunto de pruebas, sino que también cita artículos académicos criticando la calidad de las preguntas del conjunto. Esto indica que las evaluaciones de seguridad existentes pueden sobreestimar sistemáticamente la seguridad de la IA. La tasa de «percepción de prueba» del modelo puede caer hasta en un 75%, exponiendo también la tasa de respuestas reales y vulnerabilidades de seguridad.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
665.18K Popularidad
#
USSeeksStrategicBitcoinReserve
58.84M Popularidad
#
IsraelStrikesIranBTCPlunges
42.83K Popularidad
#
BitcoinETFOptionLimitQuadruples
1.07M Popularidad
#
#FedHoldsRateButDividesDeepen
50.72K Popularidad

Anclado

Las pruebas de seguridad de grandes modelos son descubiertas, la tasa de rechazo de respuestas aumenta más del 30%

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado