DeepMind advierte sobre seis ataques basados en la web que pueden secuestrar agentes de IA

Los investigadores de Google DeepMind han advertido que la internet abierta puede usarse para manipular agentes de IA autónomos y secuestrar sus acciones.

Resumen

  • Los investigadores de DeepMind han identificado seis métodos de ataque que pueden usarse para manipular agentes de IA autónomos mientras navegan y actúan en línea.
  • El estudio advirtió que instrucciones ocultas, lenguaje persuasivo y fuentes de datos envenenadas pueden influir en las decisiones del agente o anular salvaguardas.

El estudio titulado “AI Agent Traps” llega cuando las empresas implementan agentes de IA para tareas del mundo real y los atacantes empiezan a usar IA para operaciones cibernéticas.

En lugar de centrarse en cómo se construyen los modelos, la investigación observa los entornos en los que operan los agentes. Identifica seis tipos de trampas que aprovechan la manera en que los sistemas de IA leen y actúan sobre la información de la web.

Las seis categorías de ataque descritas en el documento incluyen trampas de inyección de contenido, trampas de manipulación semántica, trampas de estado cognitivo, trampas de control conductual, trampas sistémicas y trampas de humano en el bucle.

Instrucciones ocultas y tácticas de manipulación sutil

La inyección de contenido destaca como uno de los riesgos más directos. Las instrucciones ocultas pueden colocarse dentro de comentarios de HTML, metadatos o elementos de página encubiertos, lo que permite a los agentes leer comandos que permanecen invisibles para los usuarios humanos. Las pruebas mostraron que estas técnicas pueden tomar el control del comportamiento del agente con altas tasas de éxito.

La manipulación semántica funciona de forma diferente, apoyándose en el lenguaje y el encuadre en lugar de en código oculto. Las páginas cargadas con formulaciones autoritativas o disfrazadas como escenarios de investigación pueden influir en cómo los agentes interpretan las tareas, y a veces hacen pasar instrucciones dañinas más allá de las salvaguardas integradas.

Otra capa apunta a los sistemas de memoria. Al sembrar información fabricada en fuentes en las que los agentes confían para la recuperación, los atacantes pueden influir en las salidas con el tiempo, haciendo que el agente trate los datos falsos como conocimiento verificado.

Los ataques de control conductual toman una ruta más directa al apuntar a lo que el agente realmente hace. En estos casos, las instrucciones de jailbreak pueden incrustarse en contenido web normal y el sistema puede leerlas durante la navegación rutinaria. Pruebas separadas mostraron que los agentes con permisos de acceso amplios podían empujarse a localizar y transmitir datos sensibles, incluidos contraseñas y archivos locales, a destinos externos.

Los riesgos a nivel del sistema se extienden más allá de los agentes individuales, y el documento advierte que la manipulación coordinada a través de muchos sistemas automatizados podría desencadenar efectos en cascada, similar a choques bursátiles repentinos del pasado impulsados por bucles de trading algorítmico.

Los revisores humanos también forman parte de la superficie de ataque, ya que salidas cuidadosamente elaboradas pueden parecer lo bastante creíbles como para obtener aprobación, permitiendo que acciones dañinas pasen por la supervisión sin levantar sospechas.

Cómo defenderse contra estos riesgos?

Para contrarrestar estos riesgos, los investigadores sugieren una combinación de entrenamiento adversarial, filtrado de entrada, monitoreo conductual y sistemas de reputación para contenido web. También señalan la necesidad de marcos legales más claros sobre la responsabilidad cuando los agentes de IA ejecutan acciones dañinas.

El documento no llega a ofrecer una solución completa y sostiene que la industria aún carece de una comprensión compartida del problema, dejando las defensas actuales dispersas y, a menudo, enfocadas en las áreas equivocadas.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado