我一直在关注企业大规模部署生成式人工智能(Gen AI),但有一个反复出现的模式,没人真正谈论,直到为时已晚:令牌膨胀。你部署了一个聊天机器人,演示效果很好,但三个月后,你面对的账单令人困惑,不知道哪里出了问题。



实际上发生的情况是这样的。大多数团队专注于让AI正常工作,而不是关注其效率。他们堆积上下文,构建庞大的系统提示,让对话无限累积历史。每个决策在单独看来似乎合理,但将它们叠加在每天数千次交互中?这就是异常开始在你的成本报告中显现的地方,而那时你已经深陷其中。

让我拆解一下我在实际操作中看到的情况。我曾合作过的一个医疗客户使用AI系统处理医疗记录。他们的专业术语——比如脑电图(electroencephalogram)、免疫组化(immunohistochemistry)——在转化为令牌时变得碎片化,每个词变成多个令牌。同时,他们的系统提示因为加入合规检查和边缘情况处理,已经增长到几千个令牌。到对话的第20轮时,他们每次新用户查询都要处理超过7000个令牌的历史记录。这意味着成本比第一次交流多了14倍。

真正的问题不只是钱,虽然这很重要,更关键的是延迟。上下文膨胀会严重影响响应时间。在患者就诊时,医疗专业人员等待AI回答三秒钟就会完全放弃使用这个工具。金融交易员需要比市场变化更快的分析速度。当你的令牌策略忽视延迟时,你已经输了。

那么,什么才是真正有效的做法?我见过团队通过三种具体方法取得了实质性进展。

第一,别再把上下文当成一个垃圾箱。实现智能检索,而不是把所有内容都塞进上下文窗口。RAG(检索增强生成)架构——维护索引的知识库,只提取相关内容——通常能将令牌消耗减少60%到90%,相比堆积上下文要高效得多。但关键在于:这需要在数据清理和检索调优上投入真正的资源。把它当成即插即用的方案的团队,通常只是用另一种低效方式替代了原有的问题。

第二,设计不同的对话流程。大多数对话式AI实现会在每次轮次中重放全部历史。可以用摘要压缩旧的交流内容,在自然断点处分段对话,或者实现提示缓存以应对静态部分。有些应用甚至不需要多轮对话——设计良好的单轮提示,往往比聊天界面更高效,消耗的令牌也少得多。

第三,也是大多数组织失败的地方——建立真正的治理机制。在设计阶段设定令牌预算,进行每月的消耗审查,识别优化机会。建立架构委员会,维护共享的监控工具,记录有效的做法。没有这些措施,令牌优化就只是一种事后考虑,而不是工程实践的一部分。

真正能在Gen AI中获胜的企业,是那些将令牌视为战略资源,而非单纯的账单项目的公司。他们监控使用模式,早期发现异常,从第一天起就将效率融入系统设计。其他企业则会在季度审查中醒来,发现账单不合理,纸面上看似有潜力的项目,实际操作中却难以规模化。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论