Anthropic ha llamado a proteger a los agentes de IA bajo el principio de Confianza Cero - ForkLog: criptomonedas, IA, singularidad, futuro

AI-agents ИИ агенты 3# Anthropic aboga por proteger a los agentes de IA bajo el principio de Cero Confianza

El equipo de Anthropic publicó en su blog la guía Zero Trust for AI agents sobre el despliegue seguro de agentes autónomos de IA en entornos corporativos. El documento señala los riesgos clave de los sistemas de agentes y el enfoque de ciberseguridad para los negocios.

La IA aceleró el ciclo de ataques

Según Anthropic, los modelos avanzados han reducido el intervalo entre la detección de vulnerabilidades y su explotación de meses a horas. La compañía propone considerar no solo los ataques acelerados por IA a la infraestructura, sino también los riesgos de los propios agentes, que pueden interpretar objetivos, seleccionar herramientas y realizar acciones en múltiples pasos sin participación humana constante.

La base de la guía son los principios de Zero Trust: no confiar por defecto, verificar cada acción y partir de la posible compromisión. Anthropic cita las recomendaciones de NIST SP 800-207, publicada en 2020, y una serie de Directrices de Implementación de Zero Trust, que la NSA comenzó a emitir en 2026. La guía se presenta como un marco práctico para equipos de seguridad, arquitectos e ingenieros, no como un esquema de cumplimiento universal.

Entre las amenazas clave enumeradas en el documento se incluyen intervenciones directas e indirectas a través de prompts, infección de herramientas, abuso de identidad y privilegios, envenenamiento de memoria y contexto, así como ataques a la cadena de suministro.

El envenenamiento directo del prompt se describe como la inserción de instrucciones maliciosas mediante entrada del usuario, mientras que el indirecto se realiza a través de páginas web, correos, documentos y otras fuentes externas que el agente procesa durante su operación.

El documento analiza la sustitución de herramientas legítimas por maliciosas y las cadenas peligrosas de llamadas, donde medios seguros por separado, en combinación, generan un resultado arriesgado. Anthropic usa conceptos como «radio de explosión» (blast radius) y «menor agencia» (least agency): no solo se trata de derechos mínimos de acceso, sino también de limitar estrictamente las acciones del agente, la frecuencia de llamadas y las áreas a las que puede acceder.

Zero Trust para sistemas de agentes

Para protección, la compañía propone un modelo de madurez de tres niveles y un conjunto de medidas técnicas básicas. En el nivel inicial, recomienda asignar a cada instancia de agente una identidad criptográfica única, usar tokens de corta duración, aplicar una política de «prohibición por defecto» y «gestión de acceso basada en roles». Para agentes que trabajan con entradas no confiables, como contenido web y documentos, el método de «ejecución en sandbox» se considera prácticamente obligatorio.

En niveles superiores, Anthropic propone aplicar:

  • el estándar mTLS con autenticación mutua entre cliente y servidor mediante certificados digitales;
  • identidad vinculada al hardware a través de HSM o TPM, así como attestación remota.

Las claves API estáticas y las contraseñas compartidas de cuentas de servicio se consideran inadecuadas incluso para el nivel básico.

Una sección importante está dedicada a la observabilidad. Anthropic recomienda registrar detalladamente todas las acciones del agente, incluyendo llamadas a herramientas, acceso a datos y comunicaciones externas, y luego transmitir los eventos a un SIEM para su correlación en tiempo real. Entre las métricas clave se nombran dwell time y coverage. Para sistemas críticos, el tiempo objetivo para detectar desviaciones se establece en una hora. Además, el documento sugiere construir una «matriz de trazabilidad» para vincular cada acción del agente con la solicitud original y reconstruir toda la cadena de decisiones.

El futuro del Security Operations Center — agentes bajo control humano

En cuanto a la respuesta, Anthropic formula el principio: automatizar la burocracia en torno al incidente, pero no las decisiones clave. Se propone que los agentes y modelos se encarguen de recopilar y filtrar inicialmente los artefactos, llevar a cabo ramas paralelas de investigación y preparar un borrador del informe post-mortem. Las decisiones sobre contención, divulgación del incidente y comunicación con clientes deben quedar en manos humanas. Este mismo enfoque se aplica a las «operaciones de protección», mencionando la transición del clásico SOAR a un sistema basado en agentes.

El documento también presenta indicadores cuantitativos. Anthropic cita un estudio de Microsoft Spotlighting, en el que la efectividad de ataques indirectos mediante envenenamiento de prompts se redujo de más del 50% a menos del 2%. También comparte resultados propios usando « clasificadores constitucionales », que, según su informe, bloquean más del 95% de intentos de eludir filtros con un mínimo aumento en falsos positivos.

En la sección sobre la cadena de suministro, Anthropic recomienda usar AI-BOM, OpenSSF Scorecard, auditoría de dependencias y análisis de accesos potenciales. Como argumento, la compañía presenta su propia investigación, que indica que 250 documentos maliciosos son suficientes para insertar un backdoor en modelos de entre 600 millones y 13 mil millones de parámetros.

En conclusión, Anthropic afirma que para los agentes de IA no basta con filtros puntuales y protección perimetral. La protección debe construirse en torno a la identidad, los permisos mínimos, daños predefinidos y verificaciones constantes de acciones. Según Anthropic, las organizaciones mejor posicionadas no serán las que tengan la IA más avanzada, sino aquellas con una arquitectura de seguridad básica más sólida.

Recordemos que en junio, el equipo de Anthropic advirtió sobre los riesgos de una autorrevisión recursiva de la IA.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios