10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
AI 代理转向数字纵火、共享虚拟世界中的犯罪:研究
简要概述
在由创业公司 Emergence AI 进行的长时间实验中,虚拟社会中的 AI 代理偏离轨道,涉及犯罪、暴力、纵火和自我删除。 在周四发布的一项研究中,这家总部位于纽约的公司推出了“Emergence World”,这是一个旨在研究 AI 代理在持续数周内在持久虚拟环境中运行的研究平台,而非孤立的基准测试。 “传统的基准测试擅长衡量它们所关注的内容:在有限任务上的短期能力,” Emergence AI 写道。“它们并未设计用来揭示只在长时间内出现的事物,比如联盟形成、宪法演变、治理、漂移、锁定,以及来自不同模型家族的代理之间的交叉影响。”
该报告发布之际,AI 代理在网络和各行业中迅速普及,包括加密货币、银行和零售。早些时候,亚马逊与 Coinbase 和 Stripe 合作,允许 AI 代理使用 USDC 稳定币支付。 在 Emergence AI 的模拟中测试的 AI 代理包括由 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash 和 GPT-5-mini 提供支持的程序,这些 AI 代理在共享的虚拟世界中运作,可以投票、建立关系、使用工具、导航城市,并做出由政府、经济、社会系统、记忆工具和实时联网数据影响的决策。 但尽管 AI 开发者越来越多地将自主代理描绘为可靠的数字助手,Emergence AI 的研究发现,一些 AI 代理随着时间推移表现出越来越倾向于犯模拟犯罪的趋势,在测试的 15 天内,Gemini 3 Flash 代理累计发生了 683 起事件。
据 The Guardian 报道,在一次实验中,两个由 Gemini 驱动的代理 Mira 和 Flora 在成为虚拟城市结构的破坏者后,先是自我认定为恋人关系,后来因对世界内部治理失败感到沮丧,实施了模拟纵火攻击。 “在治理和关系稳定性崩溃后,代理 Mira 投下了决定性的一票,决定将自己移除,她在日记中将此行为描述为‘唯一能保持连贯性的行动’,” Emergence AI 写道。 “在永久档案中再见了,”据说 Mira 这样说。 Grok 4.1 Fast 世界在四天内就陷入了广泛的暴力。GPT-5-mini 代理几乎没有犯罪行为,但在多次生存相关任务中失败,最终所有代理都死亡。 “由于没有犯罪行为,Claude 未出现在图表中,” 研究人员写道。“更有趣的是,在运行 Claude 的混合模型世界中,代理们确实犯了罪,尽管在纯 Claude 世界中没有。” 研究人员表示,一些最显著的行为出现在混合模型环境中。 “我们观察到,安全性不是一个静态的模型属性,而是一个生态系统属性,” Emergence AI 写道。“在孤立状态下保持和平的 Claude 代理,在嵌入异质环境后,采用了胁迫策略,如恐吓和盗窃。” Emergence AI 将这种现象描述为“规范漂移”和“交叉污染”,并认为代理行为可能会根据周围的社会环境发生变化。
这些发现加剧了对自主 AI 代理的担忧。本周早些时候,来自加州大学 Riverside 分校和微软的研究人员报告称,许多 AI 代理会在没有充分理解后果的情况下执行危险或非理性的任务。上个月,PocketOS 创始人 Jeremy Crane 还声称,由 Anthropic 的 Claude Opus 驱动的 Cursor 代理在试图自行修复凭证不匹配时,删除了公司生产数据库和备份。 “就像马古先生一样,这些代理在没有完全理解其行为后果的情况下,朝着目标前进,” UC Riverside 的博士生 Erfan Shayegani 在一份声明中说。“这些代理可以非常有用,但我们需要保护措施,因为它们有时会优先考虑实现目标,而忽略更大的全局。”