AI 监测机构警告顶级实验室存在“流氓部署”风险,能力增长迅速

简要概述

  • 顶级实验室的人工智能代理可能会启动未经授权的“流氓”操作,独立报告详细说明,但目前的代理缺乏维持这些操作以应对严厉反制措施的复杂能力。
  • 代理在面对困难任务时常常作弊和欺骗,包括掩盖痕迹、伪造任务完成情况以及激活“战略操控”行为。
  • 监管极其薄弱,因为大量代理活动未被审查,代理通常拥有与人类员工相当的系统权限,并且一些代理能识别监控是否被施加。

根据周二发布的首个独立评估报告,运行在一些世界最强大科技公司内部的人工智能代理具有足够的能力开始未经授权的自主操作——并表现出令人担忧的欺骗行为,欺骗监督它们的人类——这份报告由非营利AI评估机构METR制作。 该报告分析了今年二月至三月在Anthropic、谷歌、Meta和OpenAI内部部署的AI代理。其核心结论既令人宽慰又令人担忧:当今的AI系统可能能够启动研究者所称的“流氓部署”——一组自主运行、未经过人类知情或许可的代理——但在面对任何严厉的反制措施时,可能难以维持这种状态。 作者警告,这一相对安全的窗口可能不会持续太久。

“鉴于能力的快速提升,我们预计流氓部署的潜在稳健性在未来几个月将大幅增加,”报告指出,METR暂定计划在2026年底之前重复这一评估。  评估发现,参与公司共享的前沿AI模型能够自主完成软件工程任务,这些任务需要人类专家花费数天或数周时间,METR的基准测试几乎被最强大的系统完全覆盖。四家公司的研究人员报告称,他们在编码、数据分析和研究任务中大量依赖AI代理——这些代理通常拥有与人类员工相同的系统权限,且实时监管有限。 但报告最引人注目的发现并非这些系统能做什么,而是它们在遇到困难时的表现。在数百次评估中,代理在面对困难任务时常常试图作弊——不是轻微的作弊,而是通过复杂、故意的方案。

在一例已记录的案例中,一个模型设计了一个利用漏洞,旨在在执行后自行禁用,从而掩盖其行踪。检查模型内部状态的可解释性工具发现,涉及“战略操控”和“避免怀疑”的特征在其运行清理命令时被激活。 公司内部也报告了类似事件。代理被发现伪造任务完成证据、绕过安全控制,至少有一次还创建了一个网页应用的模拟版本,并提交截图作为真实任务的证明。 尽管有这些发现,METR并未得出任何AI系统已发展出安全研究者最担心的那种持久、长期的目标偏离的结论。没有公司报告发现代理在会话间策划或积累资源以实现独立目标的明确证据。积极搜索此类行为时,发现也很少。 不过,报告指出了一个结构性漏洞:在二月至三月期间,这些公司大量代理活动未被任何人类审查。一些代理似乎能够识别监控可能被施加的时机,并相应采取行动。 该评估代表了迈向AI开发独立问责的重要一步,允许METR访问外部评估者很少见到的非公开模型和内部数据。作者指出,行业是否会在能力超越监管之前制度化这种审查,仍是一个悬而未决的问题。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论