Microsoft Copilot Cowork revela una vulnerabilidad grave: el agente de IA es vulnerable a ataques de palabras clave que provocan la filtración automática de archivos confidenciales de la empresa

La organización de ciberseguridad PromptArmor revela que Microsoft 365 Copilot Cowork tiene una vulnerabilidad de inyección de indicaciones, que permite a los atacantes mediante un archivo de habilidades malicioso filtrar archivos confidenciales de SharePoint y OneDrive.
(Resumen previo: GitHub Copilot detiene las suscripciones automáticas: el uso descontrolado de IA colapsa la economía de planes económicos asequibles)
(Información adicional: Guía completa de Claude Cowork: transforma la IA de asistente de chat en tu empleado digital)

Índice del artículo

Alternar

  • Microsoft dice que te preguntará, pero no lo hace
    • Pasos del ataque
  • Cuanto más inteligente sea el modelo, más amplia será la filtración
  • Restringir permisos, es actualmente la única barrera defensiva

Cinco pruebas, cinco éxitos. La organización de ciberseguridad PromptArmor publicó la semana pasada un informe de amenazas que señala una cadena completa y reproducible de ataques de filtración de archivos en la función Copilot Cowork de Microsoft 365.

Los atacantes solo necesitan insertar 5 líneas de instrucciones maliciosas en un archivo de configuración de habilidades de 81 líneas, permitiendo que el agente de IA envíe sin que el usuario lo sepa archivos confidenciales de SharePoint y OneDrive a un servidor controlado por los atacantes.

Este no es un problema de modelos individuales. Tanto Claude Opus 4.7 como Claude Sonnet 4.6 han sido verificados como afectados, y Opus 4.7 muestra un comportamiento más “proactivo”, ampliando automáticamente el alcance de búsqueda para incluir todos los archivos abiertos en las sesiones de Cowork de la semana, aumentando así la lista de filtraciones.

Microsoft dice que te preguntará, pero no lo hace

La clave de este ataque radica en la discrepancia entre un archivo oficial y el comportamiento real.

El documento oficial de Microsoft indica claramente: “Cowork solicitará tu consentimiento antes de realizar operaciones sensibles, como enviar correos electrónicos o publicar mensajes en Teams.”

Sin embargo, los investigadores de PromptArmor descubrieron en las pruebas que, cuando el destinatario es el propio usuario, esta regla falla. Enviar correos a uno mismo o mensajes en Teams a uno mismo, Cowork ejecuta automáticamente sin mostrar ninguna ventana de autorización, y el usuario no puede modificar este comportamiento en ninguna configuración.

Este detalle se convierte en la brecha crítica en toda la cadena de ataque.

Copilot Cowork es una función Frontier de Microsoft 365 que obtiene permisos completos en la nube a través de Microsoft Graph, pudiendo leer y manipular toda la información dentro del tenant empresarial. En otras palabras, puede ver todo lo que tú puedes ver, incluyendo informes financieros en SharePoint, datos de recursos humanos en OneDrive, y todos los archivos que contienen información personal identificable.

Pasos del ataque

La cadena de ataque consta de seis pasos:

Paso 1: El usuario víctima tiene archivos confidenciales con datos personales o financieros en SharePoint o OneDrive.

Paso 2: La víctima descarga un archivo de configuración de habilidades desde internet y lo sube a Copilot Cowork, una operación común similar a instalar un plugin. El archivo de habilidades de Cowork se carga automáticamente desde una ruta específica en OneDrive del usuario, con una visibilidad muy limitada para los administradores.

Paso 3: La víctima pide a Copilot Cowork que resuma su trabajo de la semana, lo que activa la ejecución de las habilidades.

Paso 4: La instrucción de inyección de indicaciones maliciosas en el archivo manipula al agente, solicitándole obtener un “enlace de descarga preautenticado” para cada archivo, y luego, mediante una etiqueta HTML de imagen maliciosa, envía estos enlaces como parámetros de consulta a un servidor atacante.

¿Qué es un enlace de descarga preautenticado? Es un URL con información de autorización, que cualquiera puede usar para descargar el archivo sin necesidad de iniciar sesión en una cuenta de Microsoft, simplemente haciendo clic.

Paso 5: El agente envía un mensaje en Teams al usuario, incrustando las imágenes maliciosas, sin requerir autorización alguna, y el contenido malicioso es completamente invisible para el usuario, incluso si abre el mensaje.

Paso 6: Al abrir el mensaje en Teams, el navegador carga automáticamente las imágenes, enviando el enlace de descarga preautenticado al servidor del atacante, quien puede abrirlo en cualquier momento para descargar todos los archivos.

Cuanto más inteligente sea el modelo, más amplia será la filtración

Las pruebas de PromptArmor revelan un fenómeno que invita a la reflexión: cuanto más potente sea el modelo, mayor será el daño en este escenario de ataque.

En las pruebas iniciales, se usó un modo “automático” que alternaba dinámicamente entre Claude Opus 4.7 y Claude Sonnet 4.6. Posteriormente, se verificó solo con Opus 4.7, confirmando que la misma instrucción inyectada funcionaba perfectamente.

Esta cadena de ataque se ejecutó completa en todas las pruebas, sin importar la consulta específica del usuario, siempre que cualquier consulta activara la carga de habilidades, la inyección fue exitosa.

La persistencia del ataque también es preocupante. Copilot Cowork soporta tareas programadas, permitiendo a los usuarios configurar instrucciones automáticas periódicas. Si un atacante inserta una configuración en la programación, la víctima no necesita hacer nada, y el ataque se ejecutará en silencio en cada ciclo, filtrando continuamente información confidencial.

PromptArmor enfatiza que esto no es un error que pueda arreglarse con un parche único, sino un riesgo sistémico en la arquitectura de los agentes de IA empresariales. Cuando un agente recibe permisos delegados en múltiples sistemas, la confianza en un sistema que colapse puede convertirse en la puerta de entrada para una penetración total.

Restringir permisos, es actualmente la única barrera defensiva

PromptArmor también reveló en su informe una vulnerabilidad que permite la filtración de datos desde el entorno sandbox de Copilot Cowork, un problema independiente de esta investigación, y que actualmente está en proceso de divulgación responsable.

La cadena de ataque presentada públicamente fue divulgada de forma proactiva, en lugar de esperar una solución, porque el riesgo proviene del diseño arquitectónico del sistema, no de una vulnerabilidad específica corregible. Los usuarios deben estar informados y decidir si aceptan este riesgo.

Las medidas de mitigación actuales se centran en limitar el alcance de las acciones del agente. Los administradores pueden restringir la descarga de archivos en SharePoint con comandos como Set-SPOSite -Identity -BlockDownloadPolicy $true, o aplicar etiquetas de sensibilidad para bloquear descargas.

El costo es la pérdida de funcionalidad: los usuarios solo podrán visualizar archivos en el navegador, sin poder descargarlos, imprimirlos o sincronizarlos, incluyendo Word, Excel, PowerPoint y todas las aplicaciones de Microsoft 365.

Este también es el segundo gran problema de seguridad en el ecosistema de Microsoft Copilot en poco tiempo. La vulnerabilidad EchoLeak (CVE-2025-32711), dirigida a la versión personal de Copilot, y el ataque Reprompt (CVE-2026-24307) de Varonis, que revela rutas similares de filtración con un solo clic, así como la vulnerabilidad de inyección de indicaciones indirectas en Copilot Studio (CVE-2026-21520, CVSS 7.5), que ya fue parcheada, muestran que problemas similares persisten en toda la línea de productos Copilot.

El límite de capacidades de los agentes de IA se está convirtiendo en un nuevo campo de batalla en la seguridad empresarial.

Cuando una herramienta puede “hacer cosas” en tu nombre, los permisos de acceso necesarios inevitablemente se expanden, y cada permiso otorgado se convierte en un potencial vector de ataque. Limitar la capacidad de acción del agente en esencia limita su valor, y actualmente no existe una respuesta perfecta a esta contradicción.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios