企业AI代理需要压力测试,而非推销宣传

Abhishek Saxena,Sentient战略与增长负责人。


金融科技发展迅速。新闻无处不在,清晰度却不高。

金融科技周刊在一个地方提供关键的故事和事件。

点击这里订阅金融科技周刊的新闻通讯

由摩根大通、Coinbase、贝莱德、Klarna等高管阅读。


企业人工智能存在一个信任问题,任何营销都无法解决。公司开始在生产环境中部署自主代理,单一的错误决策可能引发合规违规、支付失败、交易错误、财务损失或声誉危机。然而,行业评估代理是否准备好投入生产的标准仍然基本上是一个在舞台上看起来令人印象深刻的演示。

Nvidia本周推出的NemoClaw 表明自主代理正迅速从试验阶段转向企业工作流程。该平台增加了重要的安全和隐私控制,包括沙箱和策略护栏。但安全部署并不等同于生产就绪。更难的问题是,这些系统是否经过测试,能在模糊性、边缘情况和监管压力下可靠运行。

在受控环境中完成任务的代理相对容易。构建一个能够处理模糊性、从意外输入中恢复、在数千次并发交互中保持一致性,并且不违反监管约束的代理,是一个完全不同的工程难题。

正是在这个差异上,许多企业部署遇到了麻烦。演示性能与生产可靠性之间的差距比大多数团队预期的要大。

在测试中能完美处理客户支持查询的代理,面对从未见过的边缘案例时可能会虚构不存在的退款政策。管理财务流程的代理,可能在历史数据上表现完美,但在市场条件超出其训练分布时会做出灾难性决策。协调供应链的物流代理,可能在模拟中成功,但在现实世界的延迟和冲突信号开始叠加时会遇到困难。

任何经过对抗性测试环境的代理开发者都能迅速识别这些模式。这些系统——直到遇到定义真实操作的模糊性和压力——都能正常工作。

这就是为什么行业目前专注于构建更多代理框架,忽略了一个关键环节。真正的瓶颈不在于公司能多快创建代理,而在于他们在赋予代理实际责任之前,能多自信地评估它们。

企业人工智能需要的是严谨、系统的压力测试基础设施,专为自主系统设计。这意味着故意引入那些会让代理在生产中崩溃的输入。评估代理在不确定性、冲突信息和未在干净基准数据集中出现的边缘案例下的表现。并且需要持续评估,而不是在发布前进行一次性测试。

NemoClaw的开源方法是朝正确方向迈出的一步,因为它让开发者可以看到代理的运行方式。你不能正确测试一个黑箱。但仅有可见性是不够的。测试基础设施本身也需要随着被评估系统的演变而发展。

代理开发应假设失败模式是不可避免的,必须提前暴露出来。目标不是证明代理一次就能工作,而是理解它在条件变得不可预测时的表现。这种思维方式改变了对代理的评估、护栏的设计,以及在高风险环境中系统的部署准备。

随着代理从单一任务转向端到端的工作流程,风险只会增加。企业已经在探索能协商合同、执行金融交易、协调供应链和管理复杂运营流程的代理。当这些系统跨多个决策点运行时,一次错误的影响可能迅速级联。

一个在客户支持中失败的代理会丢失一个工单。一个在金融中失败的代理可能会损失资金。一个在运营中失败的代理可能会延误整个生产线。
最终成功部署企业AI的公司,不会是那些最早部署代理的公司,而是那些真正可以信任代理的公司。

信任不是在开发结束时添加的功能。它是一种工程学科——从系统的测试方式、在压力下的行为评估,到在投入生产之前对失败模式的理解,都始于此。

Nvidia正为企业提供强大的工具,以构建自主代理。更难的问题——也是决定这些系统是否能在现实世界中成功的关键——是组织是否在基础设施上投入同等的资源,以证明这些代理已准备就绪。


关于作者

Abhishek Saxena是Sentient的战略与增长负责人,Sentient是一个开源AI平台,致力于构建可信自主代理的基础设施。此前,Abhishek曾在Polygon Technology、苹果公司和InMobi担任职务,并拥有哈佛商学院的MBA学位。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论