廣場
最新
熱門
新聞
我的主頁
發布
Sakana AI 聯合英偉達:讓GPU跳過大模型八成無效計算,H100推理提速30%
MarsBit News
2026-05-10 05:16:49
關注
摘要生成中
據動察 Beating 監測,Sakana AI 聯合英偉達開源了名為 TwELL 的稀疏數據格式及配套加速內核,成功讓 GPU 在運行大模型時,跳過那些「結果接近於零」的無效計算。這套方案在不損失模型準確率的前提下,讓 H100 的推理速度最高提升 30%,訓練最高提速 24%,並大幅節省峰值顯存。
大模型的前饋層(FFN)吃掉了絕大部分的參數和算力。但實際上,每次生成文字時,這裡有超過 80% 的神經元都處於「休眠狀態」(激活值接近零),對最終結果毫無貢獻。如果能跳過這些神經元,就能省下海量算力。
然而,現代 GPU 天生只擅長計算整齊划一的密集矩陣,如果用傳統方法去挑出散落的有用數據,光是來回尋找和讀取數據的開銷,就會把省下來的算力全搭進去。
TwELL 格式正是為了打破這個硬件魔咒。它完全順著 GPU 的並行邏輯設計:不再像傳統方法那樣跨區域拼湊非零數據,而是把數據切成 GPU 最擅長處理的小方塊(tile)。
這樣,GPU 的各個計算核心就能在本地直接打包有用的數據,徹底省去了耗時的全局顯存讀寫,完美融入現代芯片的加速流水線。
在 15 億參數模型的實測中,只需在訓練時加一點輕微的正則化,就能把真正需要計算的神經元比例壓低到不足 2%,且七項下游任務的表現均未下降。
數據還揭示了一個規律:模型參數量越大,休眠的神經元就越多(20 億參數模型的非零比例比 5 億模型還要低 38%)。
這意味著,在未來追求更大規模的大模型時,這套針對底層硬件的優化將釋放出更可觀的性能紅利。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
154.57萬 熱度
#
美光市值超越Meta躋身全美前十
16.73萬 熱度
#
法國VS挪威
32.17萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
54.97萬 熱度
#
USD1鏈上質押享年化9.48%
98.06萬 熱度
已置頂
網站地圖
Sakana AI 聯合英偉達:讓GPU跳過大模型八成無效計算,H100推理提速30%
大模型的前饋層(FFN)吃掉了絕大部分的參數和算力。但實際上,每次生成文字時,這裡有超過 80% 的神經元都處於「休眠狀態」(激活值接近零),對最終結果毫無貢獻。如果能跳過這些神經元,就能省下海量算力。
然而,現代 GPU 天生只擅長計算整齊划一的密集矩陣,如果用傳統方法去挑出散落的有用數據,光是來回尋找和讀取數據的開銷,就會把省下來的算力全搭進去。
TwELL 格式正是為了打破這個硬件魔咒。它完全順著 GPU 的並行邏輯設計:不再像傳統方法那樣跨區域拼湊非零數據,而是把數據切成 GPU 最擅長處理的小方塊(tile)。
這樣,GPU 的各個計算核心就能在本地直接打包有用的數據,徹底省去了耗時的全局顯存讀寫,完美融入現代芯片的加速流水線。
在 15 億參數模型的實測中,只需在訓練時加一點輕微的正則化,就能把真正需要計算的神經元比例壓低到不足 2%,且七項下游任務的表現均未下降。
數據還揭示了一個規律:模型參數量越大,休眠的神經元就越多(20 億參數模型的非零比例比 5 億模型還要低 38%)。
這意味著,在未來追求更大規模的大模型時,這套針對底層硬件的優化將釋放出更可觀的性能紅利。