十萬卡 AI 集群的算力瓶頸轉移:光互聯如何成為新基礎設施核心?

過去兩年,關於AI算力的討論幾乎完全圍繞GPU展開:H100的供應缺口、B200的性能參數、下一代GPU的架構路線圖,構成了行業敘事的主線。然而,當AI訓練集群從千卡級別跨越至萬卡乃至十萬卡規模時,一個更深層的結構性約束正浮出水面——GPU之間的數據流動效率,正在成為決定集群整體算效的最終天花板。

騰訊光網架構師付思東在2026年初指出,從2016年的Pascal架構到2024年的Blackwell架構,AI算力在八年內實現了約1000倍的增長;推理算力過去四年增長32倍,訓練算力增長16倍。而同期網路帶寬從200G提升至800G,僅增長4倍。這種“算力如火箭攀升,網路如步行前進”的失衡狀態,使節點間數據傳輸速度成為萬卡乃至十萬卡級別集群的關鍵瓶頸,嚴重影響集群整體效率與資源利用率。

這一現實正在重塑AI基礎設施的投資邏輯與技術路線選擇。當光互連技術從局部的性能補償演進為支撐AI集群規模化運行的關鍵能力,理解其技術邏輯、市場格局與產業價值,就成為評估AI算力賽道不可回避的基礎問題。與此同時,投資端也在經歷類似的結構性轉變——從單一資產配置走向多市場協同,連接算力基礎設施與金融基礎設施的價值鏈條正在形成。

十萬卡集群的通信困境:算力與網路的剪刀差

GPU集群的效率並非由單一GPU的峰值算力決定,而由所有GPU完成協同計算所需的時間決定。在大模型分佈式訓練中,頻繁的參數同步與梯度交換使節點間的通信能力直接決定整體訓練效率。H3C在其CPO技術白皮書中指出,近幾年單卡算力提升速度遠超網路互連帶寬演進,多數集群在算力側不斷疊加GPU數量,但通信帶寬擴展相對滯後,結果是通信耗時在總訓練時間中占比越來越高,GPU長時間等待數據到達,整體有效算力難以隨GPU數量成比例放大。

這一現象有明確的量化依據。騰訊的演講數據顯示,過去四年訓練算力增長16倍,推理算力增長32倍,而網路帶寬僅從200G提升至800G,增長4倍。當集群規模突破萬卡並向十萬卡演進時,GPU之間的通信模式不再是簡單的點對點數據傳輸,而是涉及數千甚至數萬條鏈路同時運轉的複雜系統。任何一條鏈路的擁塞或延遲,都可能拖慢整個訓練迭代週期。

IEEE於2026年2月發表的論文進一步確認了這一判斷:隨著AI模型規模的增長,互連已成為大規模GPU集群中的關鍵瓶頸,傳統分組交換網路在功耗、成本和可擴展性方面面臨日益嚴峻的挑戰。研究顯示,基於光電路交換的架構可將骨幹層功耗減少近99%,八年生命周期成本降低76%。

從產業數據來看,這一結構性矛盾正在推動光通信基礎設施的加速擴張。瑞銀測算顯示,全球光纖需求過去五年年均增速僅約2%,但隨著AI數據中心建設加速,未來幾年行業需求增速有望超過30%,數據中心相關光纖需求甚至可能實現75%以上的複合增長率。此前70%至80%的光纖需求來自電信運營商,瑞銀預計到2030年企業和數據中心相關需求占比將超過80%。光纖行業正從傳統通信行業轉變為AI基礎設施的核心組成部分。

光互聯:解決算力瓶頸的確定性技術路徑

面對算力與網路之間的剪刀差,光互聯技術正在從補充性方案上升為基礎性架構選擇。AI集群擴展通常從三個維度展開:Scale-up(縱向擴展,對應機櫃內GPU間的高速互聯)、Scale-out(橫向擴展,對應機櫃間跨節點的集群互聯)、Scale-across(跨域互聯,對應地理分散的數據中心之間的連接)。三個維度對帶寬、延遲、功耗和傳輸距離的要求各不相同,但共同指向光互連的不可替代性。

在Scale-up場景中,光互聯主要取代銅線或電交換機,实现更高帶寬、更低延遲的節點內通信。以英偉達NVL576為例,其採用基於CPO的Spectrum-X以太網交換機,实现512×200Gbps端口的交換容量,包含32個1.6T硅光光引擎,用於Scale-out與Scale-across場景。華為CloudMatrix 384超節點則採用全對等互連架構,通过3168根光纖和6912個400G LPO模組構建高速互連總線,將384顆NPU、192個CPU以及存儲、內存等資源全部互連和池化。

技術路徑層面,以LPO、LRO、CPO為代表的“x”PO技術家族正在加速演進。LightCounting數據顯示,全球以太網光模組市場規模2026年同比增長35%至189億美元,2030年有望突破350億美元,800G和1.6T等高速光模組需求將主導市場。TrendForce預計,2026年全球800G以上光收發模組出貨占比將從2024年的19.5%上升至60%以上,以2026年Google TPU近400萬顆的出貨預估推算,對應800G以上光模組的需求將逾600萬支。

功耗是可插拔光模組面臨的核心挑戰之一。Google的Apollo OCS技術通過微型反射鏡實現數據光纖直接對接,避免傳統技術在光與電之間反覆轉換產生的耗能與延遲,單台OCS交換機相比傳統交換機耗電量減少約95%。在延遲層面,THine推出的無光學DSP晶片組適配LPO或CPO的短距離光互聯場景,可實現延遲降低90%、功耗節省73%。

中國電信研究院副院長李俊杰在2026年初指出,光互連技術正在從局部的性能補償演進成為支撐AI超節點規模化、靈活化、高可靠運行的關鍵技術能力。無論是解決速率瓶頸、功耗約束還是容量限制,光互連都已成為AI基礎設施從千卡向十萬卡集群演進的前提條件。

Ciena的戰略轉向:從電信寬帶聚焦AI光網路

當光互聯成為AI基礎設施的核心命題時,該領域的頭部設備商的戰略選擇便成為理解行業演變的重要觀察窗口。Ciena,這家全球領先的高速連接網路系統提供商,正在經歷一場根本性的戰略調整。

在2025財年第三季度,Ciena報告營收達12.2億美元,主要由光學和路由平台銷售驅動。與此同時,公司宣布停止寬帶PON業務的進一步開發,將研發投資重新轉向核心光學與數據中心解決方案,包括帶外管理技術,並裁減4%至5%的員工,計提約9000萬美元的非現金研發費用沖銷。Ciena預計未來增長將主要來自AI和超大規模雲廠商市場。

公司首席執行官Gary Smith在財報電話會議上表示,服務提供商客戶正將網路投資集中於能夠實現規模效應以承載AI流量增長的領域,催生了新的系統需求和互連機遇,並最終延伸至數據中心內部。Ciena表示,超大規模雲廠商約佔其業務的50%,2026年的客戶構成預計將與此類似。

Ciena在AI基礎設施領域的具體落地上已見成效。公司指向了一個與訓練及地理分布的區域GPU集群互連相關的北美AI基礎設施項目,包含其RLS平台以及WaveLogic 6 Nano 800-gig ZR插件。此外,其DCOM帶外管理解決方案針對數據中心內部運維場景,能幫助超大規模運營商簡化大規模數據中心運營的安裝和管理,提高可擴展性並減少功耗和空間佔用。

從更宏觀的產業格局看,Ciena的戰略轉向反映了AI數據中心對光網路需求從量變到質變的跨越。Ciena業務發展與全球合作夥伴首席技術官Jürgen Hatheier指出,市場正明顯轉向更高容量的光連接,已看到對1.6T波長的強勁需求,並預計將在2026年持續。諾基亞光網路產品組合行銷負責人Rob Shore預計,2026年將看到800G相干可插拔模組成為AI網路的標準光連接解決方案。

AI數據中心網路市場規模正以指數級增長。據行業數據,該市場將從2025年的1.031億美元增長至2026年的1.28億美元,複合年增長率達24.2%,預計到2030年將達3,017億美元。其中,面向AI應用的光纜需求在2025年預計增長77%,到2029年五年複合年增長率將達26%,遠超非AI應用。Ciena站在這一結構性增長曲線的核心位置。

從算力基礎設施到金融基礎設施:Gate的股票交易版圖

基礎設施的演進不僅發生在算力層面,也發生在資產配置層面。當AI數據中心的光互聯成為決定GPU集群效率的關鍵基礎設施時,投資端的多資產配置能力同樣需要相應的高效基礎設施予以支撐。

Gate在傳統金融領域的布局正穩步推進。2026年1月,平台首次推出TradFi差價合約功能,覆蓋黃金、外匯、股票指數、大宗商品和熱門股票。3月進一步擴展至股票代幣和槓桿ETF。6月,Gate通過與Alpaca的戰略合作,正式上線真實股票交易服務。

目前Gate支持超過10,000隻美股及ETF,涵蓋紐約證券交易所、納斯達克等主流交易所的上市公司,覆蓋範圍遠超多數代幣化股票平台通常僅支持的數百種資產。用戶可用USDT直接參與美國主流證券市場投資,最低0.01股的碎股交易使用戶可用低至1美元起投的金額參與頭部美股的投資。

在技術與合作層面,Gate對接了持有美國Broker-Dealer牌照及清算資格的合規券商,底層接入紐約證券交易所和納斯達克等主要交易所。每一股由經DTC體系獨立托管的真實資產支撐,而不是鏈上衍生品或RWA映射產品。持倉用戶可自動享有分紅、配股、拆股等完整股東權益。

從產業趨勢看,頭部加密平台整合股票交易已成為明確方向。數據顯示,73%的加密交易者同時持有傳統資產。Gate的做法通過受監管的基礎設施進行真實股票交易,而非合成或代幣化的表示,確保用戶獲得真實的價格發現和結算。結合平台的差價合約產品,Gate正從單一加密資產交易所向加密加傳統金融加衍生品的多資產中心演進。

這一演進與RWA資產代幣化的宏觀趨勢相呼應。2025年9月,Gate正式上線Ondo專區,首批引入Apple、Tesla、Microsoft等知名公司的代幣化股票和ETF。RWA賽道總鎖倉量已超過157億美元,其中Ondo Finance以約16.6億美元的鎖倉量位居全球第三。從真實股票到代幣化股票再到股票差價合約,Gate正在構建一條覆蓋多種資產形態的多層次配置通道。

結語

光互聯技術的演進路徑清晰指向一個基本事實:AI數據中心的競爭力正從單一的GPU算力指標向系統級效率指標遷移。網路不再只是算力集群的附屬支撐層,而是決定十萬卡集群能否真正發揮其理論算力的前置條件。在這一邏輯下,光網路基礎設施企業的戰略價值正在被市場重新評估——Ciena全力轉向AI光網路的決策本身,就是這一趨勢最直觀的註腳。

與此同時,投資端的基礎設施演進同樣不可忽視。當AI算力成為數字時代的核心生產力要素,能夠有效連接這一生產力與全球資本的平台,其價值錨點也在發生系統性的遷移。從算力到網路,從硬體到資產,技術演進與金融創新的交匯處,往往就是結構性機會的集中誕生地。

RWA0.98%
ONDO-2.62%
TSLA-1.5%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆