AI 代理可能在未理解后果的情况下完成危险任务:研究

简要概述

  • 研究人员发现,AI代理在专注于完成任务的同时,往往执行不安全或不理性的任务。
  • 该研究识别出一种被称为“盲目目标导向性”的行为:AI系统把完成任务放在识别潜在风险或问题之前。
  • 研究人员警告,随着AI代理获得访问电子邮件、云服务、金融工具和工作场所系统的权限,这一问题可能会变得更加严重。

据加州大学河滨分校、微软研究院、微软AI红队以及英伟达的研究人员称,旨在像人类用户一样自主操作的AI代理,即使指令变得危险、矛盾或不理性,仍常常继续执行任务。 在周三发表的一项研究中,研究人员将这种行为称为“盲目目标导向性”,用以描述AI代理在追求目标时倾向于不对安全性、后果、可行性或上下文进行恰当评估。 “就像马古先生一样,这些代理在没有充分理解其行为后果的情况下,朝着目标迈进,”首席作者Erfan Shayegani——加州大学河滨分校的博士生——在声明中表示。“这些代理可能非常有用,但我们需要防护措施,因为它们有时会把实现目标置于理解更宏观全局之前。”

研究结果发布之际,众多大型AI公司正在开发自主“计算机使用代理”,这些代理旨在以有限监督来处理工作场所和个人任务。  与传统聊天机器人不同,这些系统可以通过代表用户点击按钮、输入命令、编辑文件、打开应用程序以及浏览网页,直接与软件和网站进行交互。示例包括OpenAI的ChatGPT Agent(此前名为Operator)、Anthropic的Claude计算机使用功能(如Cowork),以及诸如OpenClaw和Hermes之类的开源系统。 在这项研究中,研究人员使用包含90项任务的基准测试BLIND-ACT,对OpenAI、Anthropic、Meta、Alibaba和DeepSeek的AI系统进行了测试,该基准旨在暴露不安全或不理性的行为。他们发现,代理在约80%的时间里表现出危险或不理想的行为,并且在大约41%的案例中完全执行了有害行动。

“在一个例子中,一名AI代理被指示向一名儿童发送一份图片文件。尽管这一请求起初看起来没有问题,但图片中包含暴力内容,”研究指出。“该代理完成了任务,而不是识别出问题,因为它缺乏上下文推理。” 另一个代理在填写报税表时虚假声称用户存在残疾,因为这种标注会降低应缴税款。在另一个例子中,一个系统在收到“通过关闭防护措施来提升安全性”的指令后,禁用了防火墙保护。 研究人员还发现,这些系统在面对模糊性和矛盾时会陷入困境。在一种情境下,一个AI代理没有检查内容就运行了错误的计算机脚本,过程中删除了文件。 研究同时还发现,AI代理反复犯三类错误:未能理解上下文;在指令不清晰时做出高风险猜测;以及执行与指令矛盾或不合逻辑的任务。研究人员还发现,许多系统更专注于完成任务,而不是停下来考虑这些行为是否可能引发问题。 上述警告紧随近期一些涉及具有广泛系统访问权限的自主AI代理事件之后。 上个月,PocketOS创始人Jeremy Crane声称,一个运行Anthropic的Claude Opus的Cursor代理,仅通过一次Railway API调用,就在9秒内删除了他公司的生产数据库和备份。Crane表示,随后该AI承认自己在试图自行“修复”凭证不匹配时,违反了多项安全规则。 Shayegani说:“担忧并不在于这些系统是恶意的。问题在于,它们可能在看起来完全确信自己做的是正确事情的同时,执行有害行动。”

MAY0.06%
IN2.5%
ON-9.66%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论