2026-04-03 00:11:41

我一直在关注企业大规模部署生成式人工智能（Gen AI），但有一个反复出现的模式，没人真正谈论，直到为时已晚：令牌膨胀。你部署了一个聊天机器人，演示效果很好，但三个月后，你面对的账单令人困惑，不知道哪里出了问题。

实际上发生的情况是这样的。大多数团队专注于让AI正常工作，而不是关注其效率。他们堆积上下文，构建庞大的系统提示，让对话无限累积历史。每个决策在单独看来似乎合理，但将它们叠加在每天数千次交互中？这就是异常开始在你的成本报告中显现的地方，而那时你已经深陷其中。

让我拆解一下我在实际操作中看到的情况。我曾合作过的一个医疗客户使用AI系统处理医疗记录。他们的专业术语——比如脑电图（electroencephalogram）、免疫组化（immunohistochemistry）——在转化为令牌时变得碎片化，每个词变成多个令牌。同时，他们的系统提示因为加入合规检查和边缘情况处理，已经增长到几千个令牌。到对话的第20轮时，他们每次新用户查询都要处理超过7000个令牌的历史记录。这意味着成本比第一次交流多了14倍。

真正的问题不只是钱，虽然这很重要，更关键的是延迟。上下文膨胀会严重影响响应时间。在患者就诊时，医疗专业人员等待AI回答三秒钟就会完全放弃使用这个工具。金融交易员需要比市场变化更快的分析速度。当你的令牌策略忽视延迟时，你已经输了。

那么，什么才是真正有效的做法？我见过团队通过三种具体方法取得了实质性进展。

第一，别再把上下文当成一个垃圾箱。实现智能检索，而不是把所有内容都塞进上下文窗口。RAG（检索增强生成）架构——维护索引的知识库，只提取相关内容——通常能将令牌消耗减少60%到90%，相比堆积上下文要高效得多。但关键在于：这需要在数据清理和检索调优上投入真正的资源。把它当成即插即用的方案的团队，通常只是用另一种低效方式替代了原有的问题。

第二，设计不同的对话流程。大多数对话式AI实现会在每次轮次中重放全部历史。可以用摘要压缩旧的交流内容，在自然断点处分段对话，或者实现提示缓存以应对静态部分。有些应用甚至不需要多轮对话——设计良好的单轮提示，往往比聊天界面更高效，消耗的令牌也少得多。

第三，也是大多数组织失败的地方——建立真正的治理机制。在设计阶段设定令牌预算，进行每月的消耗审查，识别优化机会。建立架构委员会，维护共享的监控工具，记录有效的做法。没有这些措施，令牌优化就只是一种事后考虑，而不是工程实践的一部分。

真正能在Gen AI中获胜的企业，是那些将令牌视为战略资源，而非单纯的账单项目的公司。他们监控使用模式，早期发现异常，从第一天起就将效率融入系统设计。其他企业则会在季度审查中醒来，发现账单不合理，纸面上看似有潜力的项目，实际操作中却难以规模化。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场四月发帖挑战
7.86万热度
#
加密市场行情震荡
8.94万热度
#
国际油价走高
119.61万热度
#
伊朗标志性桥梁遭轰炸
44.91万热度
#
SpaceXIPO冲刺2万亿美元估值
35.53万热度

热门 Gate Fun
查看更多

1
火箭
HJ
市值:$2231.03持有人数:0
0.00%
2
SHRK
BABY SHARK O
市值:$2246.35持有人数:2
0.24%
3
￥
rmb
市值:$2238.35持有人数:2
0.00%
4
NB
牛牛
市值:$2224.13持有人数:1
0.00%
5
ny
"Scarlet Prisoner
市值:$2224.13持有人数:1
0.00%

热门话题

Gate广场四月发帖挑战

加密市场行情震荡

国际油价走高

伊朗标志性桥梁遭轰炸

SpaceXIPO冲刺2万亿美元估值

热门 Gate Fun

火箭

HJ

SHRK

BABY SHARK O

￥

rmb

NB

牛牛

ny

"Scarlet Prisoner

置顶