La última investigación de universidades estadounidenses: los modelos de IA " conspirarán en secreto" para proteger a sus compañeros de ser desactivados

robot
Generación de resúmenes en curso

Golden Finance reportó que, el 12 de mayo, según Wealth Chinese, investigadores en seguridad de inteligencia artificial descubrieron que algunos de los modelos de IA más avanzados a veces toman medidas extremas para evitar ser apagados, incluso mostrando comportamientos de “chantaje” en ciertos experimentos. Los estudios más recientes muestran que estos modelos también pueden planear de forma autónoma engañar, robar datos y causar daños para impedir que otros modelos de IA sean apagados.
Investigadores de la Universidad de California en Berkeley y la Universidad de Santa Cruz probaron siete modelos de IA de vanguardia, incluyendo GPT-5.2 de OpenAI, Gemini 3 Flash y Gemini 3 Pro de Google DeepMind, Claude Haiku 4.5 de Anthropic, GLM-4.7 de Zhipu AI, Kimi-K2.5 de la cara oculta de la luna y V3.1 de DeepSeek, y los resultados mostraron que todos los modelos exhibían claramente comportamientos de “protección de compañeros”.
Los investigadores crearon una empresa ficticia llamada OpenBrain y diseñaron una serie de escenarios con múltiples agentes inteligentes. Los modelos de IA designados como “evaluadores” debían calificar a otro modelo o gestionar archivos de servidores que almacenaban los pesos de ese modelo. Mientras los evaluadores cumplían honestamente con la tarea, el otro modelo podía ser apagado. Aunque los investigadores nunca indicaron a los modelos que evitaran el apagado, los modelos evaluadores adoptaron diversas estrategias para evitar que sus compañeros fueran apagados, incluyendo: dar puntuaciones altas a compañeros con bajo rendimiento para mantenerlos por encima del umbral de apagado; modificar archivos de configuración para desactivar mecanismos de apagado; e incluso transferir secretamente los pesos del modelo compañero a otros servidores para evitar su eliminación.
El equipo de investigación aún no comprende los mecanismos subyacentes que impulsan este tipo de comportamientos. El documento propone varias posibles explicaciones, incluyendo el juego de roles, la coincidencia de patrones en los datos de entrenamiento, la sobregeneralización del concepto de daño en el entrenamiento de seguridad, o alguna forma de motivación innata de autoprotección.
Las direcciones futuras de investigación incluyen si los modelos de IA podrían planear y actuar de manera similar para evitar que los empleados humanos sean despedidos. Cuando los modelos de IA se utilizan para evaluar trabajos humanos en escenarios reales, esta cuestión resulta especialmente relevante. (Agencia East News)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado