十万卡 AI 集群的算力瓶颈转移:光互联如何成为新基础设施核心?

过去两年,关于AI算力的讨论几乎完全围绕GPU展开:H100的供应缺口、B200的性能参数、下一代GPU的架构路线图,构成了行业叙事的主线。然而,当AI训练集群从千卡级别跨越至万卡乃至十万卡规模时,一个更深层的结构性约束正浮出水面——GPU之间的数据流动效率,正在成为决定集群整体算效的最终天花板。

腾讯光网络架构师付思东在2026年初指出,从2016年的Pascal架构到2024年的Blackwell架构,AI算力在八年内实现了约1000倍的增长;推理算力过去四年增长32倍,训练算力增长16倍。而同期网络带宽从200G提升至800G,仅增长4倍。这种“算力如火箭攀升,网络如步行前进”的失衡状态,使节点间数据传输速度成为万卡乃至十万卡级别集群的关键瓶颈,严重影响集群整体效率与资源利用率。

这一现实正在重塑AI基础设施的投资逻辑与技术路线选择。当光互连技术从局部的性能补偿演进为支撑AI集群规模化运行的关键能力,理解其技术逻辑、市场格局与产业价值,就成为评估AI算力赛道不可回避的基础问题。与此同时,投资端也在经历类似的结构性转变——从单一资产配置走向多市场协同,连接算力基础设施与金融基础设施的价值链条正在形成。

十万卡集群的通信困境:算力与网络的剪刀差

GPU集群的效率并非由单一GPU的峰值算力决定,而由所有GPU完成协同计算所需的时间决定。在大模型分布式训练中,频繁的参数同步与梯度交换使节点间的通信能力直接决定整体训练效率。H3C在其CPO技术白皮书中指出,近几年单卡算力提升速度远超网络互连带宽演进,多数集群在算力侧不断叠加GPU数量,但通信带宽扩展相对滞后,结果是通信耗时在总训练时间中占比越来越高,GPU长时间等待数据到达,整体有效算力难以随GPU数量成比例放大。

这一现象有明确的量化依据。腾讯的演讲数据显示,过去四年训练算力增长16倍,推理算力增长32倍,而网络带宽仅从200G提升至800G,增长4倍。当集群规模突破万卡并向十万卡演进时,GPU之间的通信模式不再是简单的点对点数据传输,而是涉及数千甚至数万条链路同时运转的复杂系统。任何一条链路的拥塞或延迟,都可能拖慢整个训练迭代周期。

IEEE于2026年2月发表的论文进一步确认了这一判断:随着AI模型规模的增长,互连已成为大规模GPU集群中的关键瓶颈,传统分组交换网络在功耗、成本和可扩展性方面面临日益严峻的挑战。研究显示,基于光电路交换的架构可将骨干层功耗减少近99%,八年生命周期成本降低76%。

从行业数据来看,这一结构性矛盾正在推动光通信基础设施的加速扩张。瑞银测算显示,全球光纤需求过去五年年均增速仅约2%,但随着AI数据中心建设加速,未来几年行业需求增速有望超过30%,数据中心相关光纤需求甚至可能实现75%以上的复合增长率。此前70%至80%的光纤需求来自电信运营商,瑞银预计到2030年企业和数据中心相关需求占比将超过80%。光纤行业正从传统通信行业转变为AI基础设施的核心组成部分。

光互联:解决算力瓶颈的确定性技术路径

面对算力与网络之间的剪刀差,光互联技术正在从补充性方案上升为基础性架构选择。AI集群扩展通常从三个维度展开:Scale-up(纵向扩展,对应机柜内GPU间的高速互联)、Scale-out(横向扩展,对应机柜间跨节点的集群互联)、Scale-across(跨域互联,对应地理分散的数据中心之间的连接)。三个维度对带宽、延迟、功耗和传输距离的要求各不相同,但共同指向光互连的不可替代性。

在Scale-up场景中,光互联主要取代铜线或电交换机,实现更高带宽、更低延迟的节点内通信。以英伟达NVL576为例,其采用基于CPO的Spectrum-X以太网交换机,实现512×200Gbps端口的交换容量,包含32个1.6T硅光光引擎,用于Scale-out与Scale-across场景。华为CloudMatrix 384超节点则采用全对等互连架构,通过3168根光纤和6912个400G LPO模块构建高速互连总线,将384颗NPU、192个CPU以及存储、内存等资源全部互连和池化。

技术路径层面,以LPO、LRO、CPO为代表的“x”PO技术家族正在加速演进。LightCounting数据显示,全球以太网光模块市场规模2026年同比增长35%至189亿美元,2030年有望突破350亿美元,800G和1.6T等高速光模块需求将主导市场。TrendForce预计,2026年全球800G以上光收发模块出货占比将从2024年的19.5%上升至60%以上,以2026年Google TPU近400万颗的出货预估推算,对应800G以上光模块的需求将逾600万支。

功耗是可插拔光模块面临的核心挑战之一。Google的Apollo OCS技术通过微型反射镜实现数据光纤直接对接,避免传统技术在光与电之间反复转换产生的耗能与延迟,单台OCS交换机相比传统交换机耗电量减少约95%。在延迟层面,THine推出的无光学DSP芯片组适配LPO或CPO的短距离光互联场景,可实现延迟降低90%、功耗节省73%。

中国电信研究院副院长李俊杰在2026年初指出,光互连技术正在从局部的性能补偿演进成为支撑AI超节点规模化、灵活化、高可靠运行的关键技术能力。无论是解决速率瓶颈、功耗约束还是容量限制,光互连都已成为AI基础设施从千卡向十万卡集群演进的前提条件。

Ciena的战略转向:从电信宽带聚焦AI光网络

当光互联成为AI基础设施的核心命题时,该领域的头部设备商的战略选择便成为理解行业演变的重要观察窗口。Ciena,这家全球领先的高速连接网络系统提供商,正在经历一场根本性的战略调整。

在2025财年第三季度,Ciena报告营收达12.2亿美元,主要由光学和路由平台销售驱动。与此同时,公司宣布停止宽带PON业务的进一步开发,将研发投资重新转向核心光学与数据中心解决方案,包括带外管理技术,并裁减4%至5%的员工,计提约9000万美元的非现金研发费用冲销。Ciena预计未来增长将主要来自AI和超大规模云厂商市场。

公司首席执行官Gary Smith在财报电话会议上表示,服务提供商客户正将网络投资集中于能够实现规模效应以承载AI流量增长的领域,催生了新的系统需求和互连机遇,并最终延伸至数据中心内部。Ciena表示,超大规模云厂商约占其业务的50%,2026年的客户构成预计将与此类似。

Ciena在AI基础设施领域的具体落地上已见成效。公司指向了一个与训练及地理分布的区域GPU集群互连相关的北美AI基础设施项目,包含其RLS平台以及WaveLogic 6 Nano 800-gig ZR插件。此外,其DCOM带外管理解决方案针对数据中心内部运维场景,能帮助超大规模运营商简化大规模数据中心运营的安装和管理,提高可扩展性并减少功耗和空间占用。

从更宏观的产业格局看,Ciena的战略转向反映了AI数据中心对光网络需求从量变到质变的跨越。Ciena业务发展与全球合作伙伴首席技术官Jürgen Hatheier指出,市场正明显转向更高容量的光连接,已看到对1.6T波长的强劲需求,并预计将在2026年持续。诺基亚光网络产品组合营销负责人Rob Shore预计,2026年将看到800G相干可插拔模块成为AI网络的标准光连接解决方案。

AI数据中心网络市场规模正以指数级增长。据行业数据,该市场将从2025年的103.1亿美元增长至2026年的128亿美元,复合年增长率达24.2%,预计到2030年将达301.7亿美元。其中,面向AI应用的光缆需求在2025年预计增长77%,到2029年五年复合年增长率将达26%,远超非AI应用。Ciena站在这一结构性增长曲线的核心位置。

从算力基础设施到金融基础设施:Gate的股票交易版图

基础设施的演进不仅发生在算力层面,也发生在资产配置层面。当AI数据中心的光互联成为决定GPU集群效率的关键基础设施时,投资端的多资产配置能力同样需要相应的高效基础设施予以支撑。

Gate在传统金融领域的布局正稳步推进。2026年1月,平台首次推出TradFi差价合约功能,覆盖黄金、外汇、股票指数、大宗商品和热门股票。3月进一步扩展至股票代币和杠杆ETF。6月,Gate通过与Alpaca的战略合作,正式上线真实股票交易服务。

目前Gate支持超过10,000只美股及ETF,涵盖纽约证券交易所、纳斯达克等主流交易所的上市公司,覆盖范围远超多数代币化股票平台通常仅支持的数百种资产。用户可用USDT直接参与美国主流证券市场投资,最低0.01股的碎股交易使用户可用低至1美元起投的金额参与头部美股的投资。

在技术与合作层面,Gate对接了持有美国Broker-Dealer牌照及清算资格的合规券商,底层接入纽约证券交易所和纳斯达克等主要交易所。每一股由经DTC体系独立托管的真实资产支撑,而不是链上衍生品或RWA映射产品。持仓用户可自动享有分红、配股、拆股等完整股东权益。

从行业趋势看,头部加密平台整合股票交易已成为明确方向。数据表明,73%的加密交易者同时持有传统资产。Gate的做法通过受监管的基础设施进行真实股票交易,而非合成或代币化的表示,确保用户获得真实的价格发现和结算。结合平台的差价合约产品,Gate正从单一加密资产交易所向加密加传统金融加衍生品的多资产中心演进。

这一演进与RWA资产代币化的宏观趋势相呼应。2025年9月,Gate正式上线Ondo专区,首批引入Apple、Tesla、Microsoft等知名公司的代币化股票和ETF。RWA赛道总锁仓量已超过157亿美元,其中Ondo Finance以约16.6亿美元的锁仓量位居全球第三。从真实股票到代币化股票再到股票差价合约,Gate正在构建一条覆盖多种资产形态的多层次配置通道。

结语

光互联技术的演进路径清晰指向一个基本事实:AI数据中心的竞争力正从单一的GPU算力指标向系统级效率指标迁移。网络不再只是算力集群的附属支撑层,而是决定十万卡集群能否真正发挥其理论算力的前置条件。在这一逻辑下,光网络基础设施企业的战略价值正在被市场重新评估——Ciena全力转向AI光网络的决策本身,就是这一趋势最直观的注脚。

与此同时,投资端的基础设施演进同样不可忽视。当AI算力成为数字时代的核心生产力要素,能够有效连接这一生产力与全球资本的平台,其价值锚点也在发生系统性的迁移。从算力到网络,从硬件到资产,技术演进与金融创新的交汇处,往往就是结构性机会的集中诞生地。

RWA-1.63%
ONDO-5.33%
TSLA-1.25%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论