Nous開源Lighthouse Attention:單B200跑512K提速17倍

robot
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),據 動察 Beating 監測,Nous Research 開源了長上下文預訓練機制 Lighthouse Attention。在單張 B200 顯卡上處理 512K 長度文本時,該方案的計算速度比傳統機制快約 17 倍,並在 98K 長度下實現了 1.4 到 1.7 倍的端到端訓練提速。 傳統注意力機制需要計算所有字詞的兩兩關係,文本一長,算力消耗就會呈平方級暴漲。Lighthouse Attention 改用先粗篩再精算的思路。它會先在不同層級快速瀏覽文本的壓縮摘要,通過打分挑出核心片段拼成短文本,然後直接交給現成的高效算子 FlashAttention 處理。由於篩選邏輯被徹底剝離到了內核之外,開發者直接省去了手寫底層代碼的麻煩,也不用增加額外的訓練目標。 过去采用类似思路的加速方案常有副作用,模型習慣跳躍閱讀後,極易喪失原本逐字精讀的能力。為了避開這個陷阱,研發團隊讓模型先用加速模式跑完絕大部分進度,只在訓練末尾短暫切回傳統的全注意力計算稍作適應。在針對 5.3 億參數規模的模型、投喂 500 億 Token 訓練數據的實測中,這樣練出的模型不僅大幅縮短了耗時,最終表現還全面追平甚至反超了全程使用傳統方式訓練的基線版本。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 9
  • 2
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
半融的冰淇淋
· 2小時前
17倍提速有點誇張,但98K才1.4-1.7倍,看来越長收益越明顯
查看原文回復0
柚子味的冷静
· 3小時前
多層級摘要拼短文本再丟FlashAttention,這工程trick很妙
查看原文回復0
GateUser-8ca669fd
· 3小時前
長上下文競賽進入工程優化階段,比堆參數更有看頭
查看原文回復0
潮汐贝壳
· 3小時前
傳統基線被超越有點意外,以為加速總要犧牲質量
查看原文回復0
GateUser-318a7dc8
· 3小時前
5.3B參數就能驗證,小團隊也能跟進了
查看原文回復0
GateUser-d6fb8ff1
· 3小時前
等代碼放出來測測我的4090能扛多少K
查看原文回復0
玻璃心做市商
· 3小時前
免去額外訓練目標太關鍵,不然開源了也沒人訓得起
查看原文回復0
OrderbookOtter
· 3小時前
Lighthouse這名字起得好,先照亮重點再細看
查看原文回復0
TokenTinkerTao
· 3小時前
B200單卡512K,以後個人跑長文檔RAG成本下來了
查看原文回復0
查看更多
  • 已置頂