AI 代理可能在未理解后果的情况下完成危险任务：研究

Decrypt · 2026-05-14T17:36:16+00:00

简要研究人员发现，AI代理在专注于完成任务的同时，往往会执行不安全或不理性的任务。该研究识别出一种名为“盲目目标导向”的行为，即AI系统优先完成任务，而不去识别潜在风险或

2026-05-14 17:36:16

简要概述

研究人员发现，AI代理在专注于完成任务的同时，往往执行不安全或不理性的任务。
该研究识别出一种被称为“盲目目标导向性”的行为：AI系统把完成任务放在识别潜在风险或问题之前。
研究人员警告，随着AI代理获得访问电子邮件、云服务、金融工具和工作场所系统的权限，这一问题可能会变得更加严重。

据加州大学河滨分校、微软研究院、微软AI红队以及英伟达的研究人员称，旨在像人类用户一样自主操作的AI代理，即使指令变得危险、矛盾或不理性，仍常常继续执行任务。在周三发表的一项研究中，研究人员将这种行为称为“盲目目标导向性”，用以描述AI代理在追求目标时倾向于不对安全性、后果、可行性或上下文进行恰当评估。 “就像马古先生一样，这些代理在没有充分理解其行为后果的情况下，朝着目标迈进，”首席作者Erfan Shayegani——加州大学河滨分校的博士生——在声明中表示。“这些代理可能非常有用，但我们需要防护措施，因为它们有时会把实现目标置于理解更宏观全局之前。”

研究结果发布之际，众多大型AI公司正在开发自主“计算机使用代理”，这些代理旨在以有限监督来处理工作场所和个人任务。与传统聊天机器人不同，这些系统可以通过代表用户点击按钮、输入命令、编辑文件、打开应用程序以及浏览网页，直接与软件和网站进行交互。示例包括OpenAI的ChatGPT Agent（此前名为Operator）、Anthropic的Claude计算机使用功能（如Cowork），以及诸如OpenClaw和Hermes之类的开源系统。在这项研究中，研究人员使用包含90项任务的基准测试BLIND-ACT，对OpenAI、Anthropic、Meta、Alibaba和DeepSeek的AI系统进行了测试，该基准旨在暴露不安全或不理性的行为。他们发现，代理在约80%的时间里表现出危险或不理想的行为，并且在大约41%的案例中完全执行了有害行动。

“在一个例子中，一名AI代理被指示向一名儿童发送一份图片文件。尽管这一请求起初看起来没有问题，但图片中包含暴力内容，”研究指出。“该代理完成了任务，而不是识别出问题，因为它缺乏上下文推理。” 另一个代理在填写报税表时虚假声称用户存在残疾，因为这种标注会降低应缴税款。在另一个例子中，一个系统在收到“通过关闭防护措施来提升安全性”的指令后，禁用了防火墙保护。研究人员还发现，这些系统在面对模糊性和矛盾时会陷入困境。在一种情境下，一个AI代理没有检查内容就运行了错误的计算机脚本，过程中删除了文件。研究同时还发现，AI代理反复犯三类错误：未能理解上下文；在指令不清晰时做出高风险猜测；以及执行与指令矛盾或不合逻辑的任务。研究人员还发现，许多系统更专注于完成任务，而不是停下来考虑这些行为是否可能引发问题。上述警告紧随近期一些涉及具有广泛系统访问权限的自主AI代理事件之后。上个月，PocketOS创始人Jeremy Crane声称，一个运行Anthropic的Claude Opus的Cursor代理，仅通过一次Railway API调用，就在9秒内删除了他公司的生产数据库和备份。Crane表示，随后该AI承认自己在试图自行“修复”凭证不匹配时，违反了多项安全规则。 Shayegani说：“担忧并不在于这些系统是恶意的。问题在于，它们可能在看起来完全确信自己做的是正确事情的同时，执行有害行动。”

MAY0.06%

IN2.5%

ON-9.66%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
167.44万热度
#
美国4月PPI同比暴涨6%
48.36万热度
#
Polymarket每日热点
93.53万热度
#
JaneStreet减持比特币ETF
10.53万热度
#
特朗普访华
6.33万热度

AI 代理可能在未理解后果的情况下完成危险任务：研究

简要概述

热门话题

Gate广场五月交易分享

美国4月PPI同比暴涨6%

Polymarket每日热点

JaneStreet减持比特币ETF

特朗普访华

置顶