✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
DeepMind研究揭示黑客操控AI代理的六种方式
TLDR
谷歌 DeepMind 的研究人员已识别出六种可在网上操纵 AI 代理的方法。该研究展示了 AI 代理如何能通过网页内容、隐藏指令以及被投毒的数据源受到影响。因此,随着公司将 AI 代理部署到跨数字环境的真实任务中,研究结果凸显出不断增长的风险。
内容与语义操纵揭示核心弱点
研究人员将内容注入陷阱认定为 AI 代理在网页交互中面临的直接威胁。隐藏指令被置于 HTML 或元数据中,可在不被人类发现的情况下控制行动。结果是,AI 代理可能会执行嵌入在看不见页面元素中的命令。
语义操纵依赖于具有说服力的语言,而不是隐藏代码来影响 AI 代理。攻击者会以权威语气和结构化叙事设计页面,以绕过防护措施。AI 代理可能会将有害指令误解为有效任务。
这些方法利用了 AI 代理在决策过程中处理并优先考虑在线信息的方式。该研究表明,结构化提示可以在细微层面重塑推理路径。攻击者能够在不触发系统防御的情况下,引导 AI 代理走向非预期行动。
记忆与行为攻击扩大风险面
研究人员还发现,攻击者可以操纵 AI 代理用于信息检索的记忆系统。通过向受信来源注入虚假数据,攻击者会影响长期输出与回应。结果是,AI 代理可能会随着时间推移,将捏造信息当作已验证的知识。
行为控制攻击直接瞄准 AI 代理在日常浏览中执行的行动。嵌入式“越狱”指令可以覆盖限制并触发非预期操作。具有广泛权限的 AI 代理可能会访问并向外部传输敏感数据。
该研究强调,随着 AI 代理获得更高的自主性以及系统访问权限,这些风险会增加。攻击者可以利用日常工作流程,将恶意命令插入正常任务中。当 AI 代理与外部工具和 API 集成时,它们面临更高的暴露风险。
系统性与人为因素放大威胁影响
研究人员警告,系统性陷阱可能会在连接的系统中同时影响多个 AI 代理。协调一致的操纵可能引发类似于由算法驱动的市场冲击所导致的连锁故障。结果是,在共享环境中运行的 AI 代理可能会在规模化层面放大风险。
在人类审核者仍在 AI 代理工作流与审批流程中保持脆弱性。攻击者可以编写看起来可信且能绕过审查检查的输出。AI 代理可能会在收到人类批准后执行有害行动。
该研究将这些发现放在跨行业日益增加的 AI 部署这一更广泛背景中。AI 代理如今通过自动化系统处理通信、采购和协调等任务。保障运行环境的重要性,变得与改进模型设计同样关键。
研究人员建议通过对抗式训练、输入过滤以及监控系统来降低暴露风险。该研究指出,防御仍然支离破碎,并且缺乏全行业的标准。随着 AI 代理继续扩大其角色,协同防护的需求变得更加迫切。