如果说这起“账单爆仓”尚属行政管理疏漏，那么Meta、亚马逊等硅谷头部企业的内部实践则揭示了更深层的问题。Meta内部曾推出名为“Claudeonomics”的排行榜，追踪逾8.5万名员工的Token消耗情况，设立“Token传奇”“模型鉴赏家”等头衔进行排名激励。数据显示，30天内全员累计消耗约60万亿Token，按Anthropic公开定价估算对应账单约9亿美元；排名最高的员工单月消耗约2810亿Token，折合约140万美元以上。亚马逊内部的“Kirorank”榜单最初旨在推动AI在业务场景的应用，结果却诱发了员工刻意执行无意义操作以“刷分”的现象，最终被高级副总裁直斥“不要为了用AI而用AI”。Token消耗量这一技术计量单位，在企业内部被异化为管理考核尺度后，正在制造大规模激励错位。

由此引出的核心命题是：Token消耗量能否作为评价AI智能体、企业或员工效能的依据？如果答案是否定的，那么什么指标才真正具有评价意义？

我们认为，以Token消耗量为评价指标是危险的，因为它混淆了“成本”与“价值”、混淆了“过程”与“产出”。在智能体正在成为AI应用主流的当下，真正的资产不是Token，而是智能体本身。

二、token资产化是怎么来的？

2.1 Token计价的商业化成熟

Token作为大模型处理文本的最小单位，已被确立为AI产业的基础计价单元。2026年3月，全国科学技术名词审定委员会正式将Token的中文名称定为“词元”，面向全社会发布试用，国家数据局进一步将其定义为智能时代的“结算单位”。据国家数据局披露，2026年第一季度我国日均Token调用量已突破140万亿，较2024年初增长超千倍。这一术语标准化动作，反映了Token计价体系的产业共识正在形成。

从定价格局看，当前Token市场呈现极端分化。国际主流模型方面，OpenAI GPT-4o的输入价格为每百万Token 2.5美元、输出为10美元；Claude Sonnet 4.6输入3美元、输出15美元。2026年4月，OpenAI正式发布GPT-5.5系列及高级版GPT-5.5 Pro，API定价方案为GPT-5.5 Pro输入30美元、输出180美元每百万Token。与此同时，国内大模型以价格战姿态展开剧烈竞争：2026年5月27日，小米宣布MiMo-V2.5系列API永久降价最高达99%，其中MiMo-V2.5-Pro缓存命中输入价格降至0.025元每百万Token ；DeepSeek发布V4系列，旗舰版V4-Pro在优惠期间缓存命中输入价格亦低至0.025元每百万Token。Token计价单位并无统一的“公允价值”——不同模型、不同场景下，同等Token消耗可能对应价格相差百倍甚至千倍。

2.2 Tokenmaxxing的兴起与问题

Token作为计价单位的技术合理性与监管背书，与企业将其异化为管理尺度的实践之间，存在一条危险的断裂带。“Tokenmaxxing”约于2025年开始在企业内部流行，其底层管理逻辑是：既然公司已经购置了AI工具，员工应最大化使用以体现投资回报率。

然而数据揭示了这一逻辑的脆弱性。有研究估算，企业每1美元AI Token采购成本背后可能伴随约0.5至0.8美元隐性损耗，包括错误修复、代码重写和审查延迟。有分析指出，Claude Code前10%的重度用户消耗Token量为普通开发者的约十倍，但产出成果仅为后者的两倍左右。亚马逊、Meta已先后关停各自的Token内部排行榜，Uber则在四个月内耗尽全年AI Token预算。行业正从“用AI多牛”的叙事，急转进入“钱花得是否值”的审慎阶段。

2.3 智能体经济的涌现

然而，以Token消耗为焦点的讨论，几乎完全忽略了同一时期发生的结构性变化：智能体正在从大模型的“附加能力”成长为独立的技术与经济实体。2026年5月，国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》，明确智能体是人工智能产品及服务的重要形态。Anthropic在2026年5月的开发者大会上，将Claude Code从“终端里的AI编程助手”推向“工程团队的异步自动化基础设施”，并正式转向“基础费+按实际算力消耗付费”的混合定价模式。其Claude Managed Agents策略代表了一种更深层的转向：模型厂商开始直接销售Agent运行层基础设施，商业模式正从卖Token转向卖智能体的运行能力。

正是在这一背景下，Token消耗量度量的局限性变得愈发凸显，替代性评价体系的探索也加速展开。

三、token作为度量指标真的合适吗？

3.1 Token作为度量指标的四重结构性缺陷

**其一，Token混淆成本与价值。**李彦宏在Create2026百度AI开发者大会上明确提出，“Token只是代表成本，并不代表收益；它衡量的是投入，而不是产出”。清华大学马少平教授则从技术底层阐明，“Token本身不携带智能，它只是承载信息的载体；AI的智能体现在对Token序列的关系建模上”。把Token消耗量作为效能指标，相当于一家工厂以耗电量作为产值考核标准——电费花得越多，不一定意味着产出越高，反倒可能说明设备低效或管理失控。

**其二，Token缺乏跨模型、跨任务的度量基准。**不同大模型的Token计算方式不一致，Anthropic在相关版本中的分词器调整可能导致相同文本消耗Token数量发生显著变化。不同任务中完成同等业务目标所需的Token量也存在数量级差异。更根本的是，当Token计价本身已在大模型厂商之间形成了百倍以上的价差时，以其作为效能度量锚点，在逻辑上处于无法自洽的状态。

**其三，Token考核引发激励错位。**当Token消耗量被纳入绩效考核后，企业面临的并非员工因过度使用AI而“浪费成本”，而是员工主动选择“最大化Token消耗”这一伪目标。工程师不再追求用最少Token完成最优任务，而是通过膨胀任务链条、增加冗余推理步骤来提高Token计数——这种行为经济学意义上的“指标异化”，在Meta和亚马逊的实践中均有明确体现。

**其四，Token难以捕捉完成质量。**一个能够准确一次性解决复杂工程问题的智能体，消耗的Token可能远少于一个需要反复试错、多次回退、逐步逼近答案的低质量智能体。Token消耗量越多，往往意味着运行效率越低——这与考核目标的方向恰恰相反。

3.2 智能体作为核心资产的再定义

上述分析指向一个根本性的结论：Token是被消耗的资源，而智能体是创造价值的实体。二者之间的关系，类似于电力消耗与驱动电力的电动机之间的关系——可以统计总耗电量，但真正有价值的是电动设备完成了多少工作、产出了什么产品。

Anthropic的发展战略提供了佐证。2026年5月发布的新版Claude模型将重点放在了“agentic coding、computer use、knowledge work、financial analysis”——即智能体可介入的真实工作场景。更值得关注的是Anthropic在managed agents中展示的平台化战略：厂商正从销售模型调用权，转向提供智能体运行层服务。这种变化的本质是价值载体从底层算力消耗向上迁移至应用层实体。

据Claude Code负责人透露，若按现行纯订阅定价该产品并不盈利。这一现实表明，单靠Token计价难以覆盖智能体的真实成本结构——智能体的价值来源在于任务完成度、自动化深度和工作流嵌入度，而这些都无法在Token计量维度中被有效捕捉。

3.3 新一代评价基准的涌现

当Token度量被证明不足时，行业正在探索替代方案。从任务完成基准看，SWE-bench Verified已成为代码智能体领域公认的严格评测标准，要求模型在真实GitHub代码库中自主定位并修复Bug。公开排行榜数据显示，Claude Sonnet 4在SWE-bench Verified上得分约80.20%，Claude Opus 4.6等模型在该基准上得分约78%至80%不等。这些基准的核心是不统计消耗了多少Token，而是评估智能体完成了多少“任务单元”。

在业务价值评价侧，**百度提出DAA（日活智能体数），其定义是“每天有多少智能体踏踏实实在替人干活、交付结果”。**DAA的核心转向是把评价重心从“使用了多少AI”转向“AI完成了多少任务”。

**亚马逊也在内部探索以“归一化部署”指标替代Token追踪，重点衡量工程师能否通过AI持续生成有实际价值的代码。**FinOps Foundation的2026年报告显示，98%的受访企业已在管理AI成本，较两年前仅31%大幅上升，成本可见性成为行业首要挑战。这一趋势暗示行业对AI支出的精细化评估需求正从“是否有支出”转向“支出与产出关系”的结构性审视。

这些探索的共同逻辑在于：以智能体完成任务的质量和数量为度量基准，而非以消耗资源的总量为度量基准——这正是“真正的资产不是Token，而是智能体本身”这一命题的实证支撑。

四、token度量与价格战的比较

4.1 Token度量派 vs 智能体度量派

Token度量派的基本立场可追溯至黄仁勋在2026年3月GTC大会上的相关表述：“如果一位年薪50万美元的工程师一年消耗不掉25万美元的Token，我会深感焦虑”，并主张将Token预算视为工程师生产力的投入指标。这一叙事框架的核心是将Token消耗视为生产力投入指标，其隐含假设是“Token消耗的多少与价值创造的正相关”。

**然而，这一假设正遭遇多重挑战。**Uber首席运营官Andrew Macdonald直接点出了困境的本质：“我们很难把员工个人生产力的提升，和公司整体的业务影响联系起来”。在企业实践中，员工通常将AI用于自身“不喜欢的工作”而非“对公司最有价值的工作”。企业财务层面，有调查显示仅14%的CFO表示能够看到AI投资具有清晰可衡量的回报。Uber在耗尽年度Token预算后，未能呈现匹配的绩效增长。这些证据指向一个共同方向：Token预算与业务增长之间缺乏可验证的因果关系，Token不应被赋予评价尺度职能。

4.2 Token价格战的双刃剑效应

围绕Token定价的激烈竞争，为上述度量争议增添了新的维度。OpenAI于2026年4月发布的GPT-5.5 Pro API定价输入30美元、输出180美元每百万Token，较此前的GPT-5.4 Pro定价上涨数倍。与此同时，DeepSeek将V4-Pro优惠价降至0.025元每百万Token，小米亦将MiMo-V2.5-Pro缓存命中价降至0.025元每百万Token 。Token价格体系的分化程度，已超过任何传统商品市场的价格梯度。在同等基础设施层面，输入百万Token的调用成本可从不足0.03元跨越至约210元人民币（约30美元）。

这一动态对Token作为度量尺度的可信度构成了根本性威胁：如果同等Token在不同供应商之间的成本差异可达数百乃至数千倍，Token消耗量又如何成为横向对比企业AI效能的依据？对于投资人与分析师而言，基于Token消耗量的风险评估和业绩预测也将面临越来越大的偏差。Token计价本身正在经历极速分化，以消耗量衡量的“投入规模”正在失去参照系意义。

五、事实胜于雄辩

场景一：Meta“Claudeonomics”的失效

2026年4月，Meta一名员工开发了名为“Claudeonomics”的内部仪表盘，用以统计公司超8.5万员工的Token使用量。数据显示，30天内全员累计消耗约60万亿Token，按Anthropic公开定价估算对应账单约9亿美元。排名最高的个人单月消耗约2810亿Token，折合约140万美元以上。

这一案例完整呈现了Token度量导向激励的三个阶段：第一阶段，以Token用量激励员工使用AI工具；第二阶段，员工主动寻找甚至生成Token消耗任务以维持排名；第三阶段，公司算力资源被无效消耗，产出质量严重低于预期。最终，Meta关停了该榜单。

场景二：Anthropic的算力瓶颈与扩张

Token度量的另一面是模型厂商自身的成本与算力压力。2026年5月，为缓解Claude用户的容量限制，Anthropic宣布将接管SpaceX旗下Colossus 1数据中心的全部算力，获得超过300兆瓦新增容量、逾22万张英伟达GPU。据协议，新增算力将直接用于提升Claude Pro和Claude Max会员的服务承载能力。这一扩张动作揭示了Token计价体系对算力供给的高度依赖，也折射出Token计价的长期稳定性尚存变数。

场景三：企业Token账单的普遍压力

有报道称微软一度限制员工使用Claude Code。Uber在四个月内花完全年AI Token预算。Shopify、Spotify、ServiceNow、Roku等科技公司的财报会议均提到AI成为运营支出的主要压力来源。当Token账单的急速膨胀开始影响季度财报数据时，企业界才真正开始系统性审视Token消耗与业务产出之间的关系。

场景四：智能体作为资产的正向案例

在Token度量派叙事面临挑战的同时，聚焦智能体本身构建评价体系的企业呈现出不同的发展路径。Anthropic聚焦企业服务的战略有显著成效：其C端活跃用户不及ChatGPT的2%，但在年化收入上持续追近OpenAI。据媒体报道，Anthropic年化收入于2025年底约90亿美元，至2026年3月已突破300亿美元，正式超越OpenAI同期250亿美元的水平。有分析指出，这种反差的根源之一是Anthropic的智能体在企业后台执行合同处理、数据分析、供应链调度等真实任务——用户看不见智能体的存在，但每天有稳定价值产出。

据The Information等媒体报道，Claude Code的年化收入在2025年至2026年初持续高速增长。企业为智能体能够完成任务的质量付费，而非仅为算力消耗量付费——这正是“智能体是真正的资产”命题的有力佐证。

六、以token资产为中心将转向智能体资产为中心

综上，我们不难看出，正反两方面的趋势已经日渐明显。

**第一，Token消耗量作为效能评价指标存在结构性缺陷。**它混淆了投入与产出、成本与价值；它缺乏跨模型、跨场景的度量基准；它将考核目标与经营目标分离，诱发了严重的激励错位。Meta和亚马逊的内部实践已有明确证实。

**第二，智能体正在成为AI经济中最具实质性的价值载体。**智能体的定义特征是“完成任务单元”，而非“消耗算力单元”。一个高效智能体可能消耗极少量Token就完成高度复杂的任务；一个低效智能体可能消耗大量Token却没能解决任何真实问题。因此，Token消耗量既不反映智能体的能力边界，也无法预测企业的AI投资回报。

**第三，行业正在从Token中心转向智能体中心的评价体系。**SWE-bench等任务完成基准为智能体能力的横向比较提供了框架；DAA等业务价值指标试图从智能体运行层面衡量AI的经济贡献；企业在内部探索以产出质量为维度的绩效指标。

总之，**真正的资产不是Token，而是智能体本身。**Token是智能体运行的燃料，但企业的竞争力取决于发动机的效率，而非油箱的容量。从Token中心到智能体中心的度量范式转换，将是未来三到五年AI产业评价体系重构的主线之一。

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
ShareYourUSStocksWinNvidia
23.96M Popularitas
#
WinGoldBarsWithGrowthPoints
1.27M Popularitas
#
IsraelStrikesIranBTCPlunges
52.31K Popularitas
#
NvidiaSurges6PercentToRecordHigh
2.87M Popularitas
#
AnthropicFilesConfidentialIPO
484.36K Popularitas

Disematkan

peta situs

Token bukan aset yang sebenarnya, makhluk cerdas lah yang benar-benar.

一、科技公司员工天量token消耗