英伟达份额大降,AI革命新阶段机会在哪?这是 AI 投研 100 篇系列的第九篇文章。


前几篇看了 Intel、AMD、ARM 这几家。它们过去一年股价涨幅都不小——AMD 翻倍、Intel 三倍、ARM 也站上历史高位。涨上来之后,一个朴素的问题就来了:
这些已经涨过的还能不能拿?没涨的里面还有没有机会?
要回答这个问题,绕不开一个核心词——推理。前面那些公司涨上来,分析里反复出现的就是这两个字。
那么:推理的赛道有多大?目前在什么阶段?哪些公司会如何受益?哪些已经被市场定价,哪些没有?
这是 AI 投研 100 篇系列的第九篇文章,长达1.5万字,内容丰富同时易于阅读,建议先收藏后观看。
一、赛道有多大
模型训练是「写程序」,推理是「这个程序每天被调用的过程」。GPT 训出来之后,每天有几亿人去问它问题,每一次问答都在消耗推理算力。Claude Code 跑一个任务,agent 自己跑一百轮,每一轮都是推理。
多份行业研究和媒体引用都指向同一个方向:模型进入生产环境后,推理会成为生命周期成本的大头,常见估算区间在 80-90%。也就是说,未来 AI 时代的算力账单里,10 块钱有 8 块是推理在烧。
但市场过去三年讨论的几乎全是训练,因为训练是更"性感"的故事——比谁的 H100 多、谁的参数大、谁先训出下一代模型。推理被当成训练完之后顺带的事。
这个认知偏差正在被扭转,而这,正是过去一年这一批半导体公司被重新定价的根本原因。
那推理这条赛道大,但到底有多大?具体可以从5个角度测算。
一是用户数。 ChatGPT 周活 9 亿、付费 5000 万。中国侧的对比更直接——日均 token 调用量从 2024 年初的 1000 亿涨到 2026 年的 140 万亿,1400 倍。这一项还远远没饱和。
二是使用强度。 OpenAI 的 token 处理量在 2025 年 10 月还是每分钟 60 亿,2026 年 4 月已经到 150 亿——半年翻 2.5 倍。企业版收入占比超过 40%,企业用户的使用强度是消费者的几十倍。
三是对话长度。 上下文长度从早期的几百 token,到现在DeepSeek API 文档列出的 V4 Pro / Flash 上下文长度为 1M,最大输出为 384K。文档越长,单次推理消耗的内存和算力越高。
四是模型本身越来越费算力。 OpenAI o1、DeepSeek R1、Claude thinking 这一类 reasoning 模型,回答问题之前会先在内部"思考"几千甚至几万个 token。黄仁勋曾以 DeepSeek R1 为例谈到,推理模型可能需要高得多的计算量,甚至达到百倍量级
过去你问 AI 一个问题,它直接给答案;现在你问 AI 一个难题,它先在脑子里想半分钟,再给答案。这中间的"想半分钟",就是新增的算力消耗。
五是 agent。 一个 agent 任务通常要调模型 10-100 次。OpenAI Codex 周活已经突破 400 万(截至 2026 年 4 月 22 日)——这只是一家公司的一个产品。一名 AI 产业链人士的判断是,AI 智能体的整体算力消耗可达同参数规模大语言模型的 10 倍以上。
五件事相乘,三五年内推理总需求出现数量级扩张,并不是夸张叙事,而是一个越来越接近主流的判断。
《英伟达推理份额大降,AI革命进入二阶段机会在哪?》
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить