✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
企业AI代理需要压力测试,而非推销宣传
阿比谢克·萨克塞纳(Abhishek Saxena),战略与增长负责人,Sentient。
金融科技发展迅猛。新闻无处不在,清晰却难以抵达。
《金融科技周刊》将关键故事与重要活动汇聚于一处。
点击此处订阅《金融科技周刊》通讯
由摩根大通(JP Morgan)、Coinbase、贝莱德(BlackRock)、Klarna 等高管阅读。
企业级人工智能面临一个信任问题,而没有多少营销能够解决。企业开始在生产环境中部署自主代理;在这些环境里,单一次错误决策就可能引发合规违规、支付失败、交易错误、金融损失或声誉危机。然而,行业评估一个代理是否已准备好投入生产的标准,实际上仍然是一场在舞台上看起来很惊艳的演示。
Nvidia 的 NemoClaw 本周发布表明,自主代理正在以多快的速度从试验走向企业工作流。该平台增加了重要的安全与隐私控制,包括沙盒隔离与策略护栏。但安全部署并不等同于生产就绪。更难的问题在于:这些系统是否已经在模糊性、边缘情况与监管压力下被测试过,能够可靠地运行。
在受控环境中构建一个能够完成任务的代理,相对来说比较容易。构建一个能够处理模糊性、从意外输入中恢复、在数千个并发交互中保持一致性,并且在不违反监管约束的前提下完成所有这些工作,是完全不同的工程难题。
正是这种差异让许多企业部署陷入困境。演示表现与生产可靠性之间的鸿沟,比大多数团队预期得更大。
一个在测试中能完美处理客户支持咨询的代理,可能在面对它从未见过的边缘情况时,编造出并不存在的退款政策。管理金融工作流的代理可能在历史数据上表现完美,但在市场状况偏离其训练分布时做出灾难性的决策。协调供应链的物流代理或许在仿真中能够成功,但当现实世界的延误与相互冲突的信号开始叠加时就会遇到困难。
任何在对抗性测试环境中运行过代理的人,都会很快识别这些模式。系统能工作——直到它们遇到那些定义真实运营的模糊性与压力。
这也是为什么行业当前把重点放在构建更多代理框架上,却忽略了拼图中至关重要的一块。真正的瓶颈并不是企业能多快地创建代理。而是它们能多有把握地在这些代理被赋予真实责任之前对其进行评估。
企业级人工智能所需要的是严格、系统的压力测试基础设施——专门为自主系统设计。这意味着要刻意引入那些会在生产中击垮代理的输入类型。这意味着要评估代理在不确定性、信息冲突以及不会出现在干净基准数据集中的边缘情况之下的表现。这也意味着持续评估,而不是在上线之前做一次性的测试。
NemoClaw 的开源方式是朝着正确方向迈出的一步,因为它让开发者能够看见代理如何运作。你无法对一个“黑盒子”进行恰当的测试。但仅有可视性还不够。测试基础设施本身需要与被评估的系统一起演进。
代理开发应当假设失效模式是不可避免的,并且必须在早期就被暴露出来。目标并不是证明一个代理只在某一次情况下“工作正常”,而是理解当条件变得不可预测时它会如何表现。这种思维方式会改变代理如何被评估、护栏如何被设计,以及系统如何为高风险环境中的部署做好准备。
随着代理从孤立任务走向端到端工作流,风险只会不断上升。企业已经在探索能够协商合同、执行金融交易、协调供应链并管理复杂运营流程的代理。当这些系统跨越多个决策节点运行时,一次单独错误的影响可能会迅速连锁扩散。
一个失败的客户支持代理会丢失一张工单(ticket)。一个失败的金融代理可能会丢失资本。一个失败的运营代理可能会延误整条生产线。
最终在企业级人工智能上取得成功的公司,并不是那些最先部署代理的公司。它们会是那些部署了自己真正能够信任的代理的公司。
信任不是你在开发的最后才“加上去”的一个功能。它是一门工程学科——从系统如何被测试开始,从系统在压力之下的行为如何被评估开始,并且在它们真正接触生产工作负载之前很久,就要弄清楚它们的失效模式。
Nvidia 正在为企业提供强大的工具来构建自主代理。更难的问题——也将决定这些系统能否在真实世界中成功——在于组织是否同等投入基础设施,以证明这些代理确实已准备就绪。
关于作者
阿比谢克·萨克塞纳(Abhishek Saxena)是 Sentient 的战略与增长负责人,Sentient 是一家开源人工智能平台,致力于为可信自主代理构建基础设施。此前,阿比谢克在 Polygon Technology、Apple 和 InMobi 等公司担任过相关职务,并拥有哈佛商学院(Harvard Business School)的 MBA 学位。