一年多以前,一家从中国的量化对冲基金转型而来的 AI 实验室发布了一款名为 DeepSeek 的先进 AI 模型。尽管人们就 DeepSeek 到底以多么低成本、以及在哪些芯片上进行训练存在一些争议,但毫无疑问,DeepSeek 实现了具有创新性的改进,显著提升了使用更少、且“性能较差”的半导体来训练 AI 模型的效率。
上周,Alphabet(GOOG +5.02%)(GOOGL +5.10%)旗下的 Google Research 发布了 TurboQuant,这是一种基于软件的 AI 内存压缩技术,能够在更少的内存条件下实现更高效的推理。对此,Micron(MU +4.80%)等主要内存公司及其供应商出现了急剧抛售。
不过,这是否只是另一个投资者应该买入的 DeepSeek 时刻?
展开
NASDAQ: MU
Micron Technology
今日涨跌
(4.80%)$15.46
当前价格
$337.26
关键数据点
市值
$381B
日内区间
$311.50 - $337.70
52 周区间
$61.54 - $471.34
成交量
3.1M
均量
40M
毛利率
58.54%
股息收益率
0.18%
TurboQuant 是什么?
TurboQuant 能显著提升容量,并加速 AI 推理中的键值缓存(KV cache)。KV-cache 是一种内存类型,使 AI 算法能够保留先前的上下文,而无需为生成新内容重新计算所有先前的 token。因此,KV-cache 可以说是 AI 之前输出内容的一种“故事”。
谷歌的新TurboQuant技术是否意味着美光的时代结束?
一年多以前,一家从中国的量化对冲基金转型而来的 AI 实验室发布了一款名为 DeepSeek 的先进 AI 模型。尽管人们就 DeepSeek 到底以多么低成本、以及在哪些芯片上进行训练存在一些争议,但毫无疑问,DeepSeek 实现了具有创新性的改进,显著提升了使用更少、且“性能较差”的半导体来训练 AI 模型的效率。
消息传出后,AI 半导体与内存股票出现了急剧抛售,原因是基于表层印象认为:AI 公司不需要购买那么多逻辑芯片和内存芯片。然而,我们现在都知道这些股票随后反弹,且反弹幅度更大——因为更高的模型效率并没有阻碍芯片需求。相反,AI 公司把这种效率提升投入到更先进的模型上,进而整体提高了对算力与内存的需求。
上周,Alphabet(GOOG +5.02%)(GOOGL +5.10%)旗下的 Google Research 发布了 TurboQuant,这是一种基于软件的 AI 内存压缩技术,能够在更少的内存条件下实现更高效的推理。对此,Micron(MU +4.80%)等主要内存公司及其供应商出现了急剧抛售。
不过,这是否只是另一个投资者应该买入的 DeepSeek 时刻?
展开
NASDAQ: MU
Micron Technology
今日涨跌
(4.80%)$15.46
当前价格
$337.26
关键数据点
市值
$381B
日内区间
$311.50 - $337.70
52 周区间
$61.54 - $471.34
成交量
3.1M
均量
40M
毛利率
58.54%
股息收益率
0.18%
TurboQuant 是什么?
TurboQuant 能显著提升容量,并加速 AI 推理中的键值缓存(KV cache)。KV-cache 是一种内存类型,使 AI 算法能够保留先前的上下文,而无需为生成新内容重新计算所有先前的 token。因此,KV-cache 可以说是 AI 之前输出内容的一种“故事”。
但如果 KV-cache 是过去上下文的“故事”,那么 TurboQuant 就是对这段故事的一种快速而准确的“摘要”。
用外行的话说,TurboQuant 的工作方式是这样的。AI 模型通过把数据存储为向量(即带有多个“嵌入”的多维图表)来理解上下文,也就是在 X-Y-Z 坐标轴中的若干“点”。一个 token 若具有与另一个 token 相似的向量,就意味着它们之间存在相似的关系。
为了简化,我们假设在 X-Y 平面上。于是,一个嵌入可能被描述为“向东走三格,向北走四格”。
TurboQuant 通过把这些指令概括为“以东北方向 37 度,向前走五格”来简化它们。这大幅减少了理解上下文所需的计算量,尽管它也可能带来残余误差。但随后,TurboQuant 再叠加一个 1-bit 的纠错机制来把这些误差清理掉。即便增加了这 1 位,这种技术使用的内存也比标准的 AI 向量 XYZ 坐标方法少得多。
因此,由于纠错机制,Google Research 声称 TurboQuant 能把 KV-cache 的容量提高六倍,同时让 AI 推理速度提高八倍——而且不会损失准确性。
TurboQuant 为 AI 推理加速。图片来源:Getty Images。
TurboQuant 将如何影响 AI 内存
如果 AI 推理能够使用少六倍的 DRAM 并以八倍速度运行,那么未来推理应用中的内存需求可能会更少。
这似乎有点过于简单,尽管也存在一个看似合理的潜在下行情形。一个风险是:AI 推理的市场份额可能会从使用高带宽内存(HBM)的昂贵 GPU 转向在“传统”服务器内存上运行的 CPU,例如 DDR5 或 MRDIMM。
HBM 比这些更早期的内存类型快得多,但它能容纳的上下文更少,而且也贵得多。由于 TurboQuant 将 KV cache 速度提升了八倍,现在如果一家公司想要使用许多 AI 代理、在大量数据上进行推理(例如一份 1,000 页的法律文件),它或许能更有效地部署 DDR5 或 MR-DIMM。尽管 HBM 也会被 TurboQuant 进一步“超频式”增强,但用于 CPU 的较旧内存形式,可能对那些希望降低成本的大型企业来说,“足够快”。
在当下的内存供应紧张中,HBM 一直是主要因素之一,因为相较于“传统”内存,生产一位 HBM 需要的设备数量可能是后者的三到四倍。所以,随着需求在推理上转向更传统的内存,内存市场的供应约束可能不会那么紧。
但看涨的故事更可能发生
尽管 TurboQuant 对 HBM 市场构成潜在风险,而 HBM 正在吸走行业的大部分供应,这位投资者仍认为看涨情景更可能出现。
首先,TurboQuant 也会带来对 HBM 的改进:它让基于 HBM 的推理拥有更大的上下文窗口。因此,AI 推理不会完全迁移到 CPU 或传统内存。对于那些需要极低延迟的应用,HBM 仍很可能在某种程度上继续被采用。
另外,HBM 仍然是 AI 模型训练的主要内存类型,而 TurboQuant 不会影响这一点。虽然未来推理会成为更大的市场,但用于训练的 HBM 需求很可能仍将继续增长。鉴于我们目前对 HBM 的供应仍然严重不足,且 TurboQuant 甚至还没有在 Google 的实验室之外实现落地,内存公司将有时间相应调整其供应增长速度。
但甚至可能不需要调整供应,因为 Jevon 悖论可能会在 TurboQuant 上成立,就像它在 DeepSeek 上那样。Jevon 悖论指出,当某个过程变得更高效时,不是去用更少的投入,而是对这些资源的需求反而会增加:更高的效率会推动采用,并带来更多使用案例。
鉴于大多数顶级科技公司都认为我们仍处在 AI 时代的早期,如果 TurboQuant 能加快企业与消费者将 AI 融入其业务的速度,那么那股日益增长的需求浪潮会把所有船都一起“抬起来”。
总之,这次内存板块的抛售可能是一个机会。尽管 Micron 及相关半导体资本设备股票在过去一年仍然涨幅巨大,但这次“惊吓”或许能让你有机会在错过过去一年的上涨行情后,增加或买入一个初始持仓。