AIMPACT 消息，5 月 16 日（UTC+8），據動察 Beating 監測，Nous Research 開源了長上下文預訓練機制 Lighthouse Attention。在單張 B200 顯卡上處理 512K 長度文本時，該方案的計算速度比傳統機制快約 17 倍，並在 98K 長度下實現了 1.4 到 1.7 倍的端到端訓練提速。傳統注意力機制需要計算所有字詞的兩兩關係，文本一長，算力消耗就會呈平方級暴漲。Lighthouse Attention 改用先粗篩再精算的思路。它會先在不同層級快速瀏覽文本的壓縮摘要，通過打分挑出核心片段拼成短文本，然後直接交給現成的高效算子 FlashAttention 處理。由於篩選邏輯被徹底剝離到了內核之外，開發者直接省去了手寫底層代碼的麻煩，也不用增加額外的訓練目標。过去采用类似思路的加速方案常有副作用，模型習慣跳躍閱讀後，極易喪失原本逐字精讀的能力。為了避開這個陷阱，研發團隊讓模型先用加速模式跑完絕大部分進度，只在訓練末尾短暫切回傳統的全注意力計算稍作適應。在針對 5.3 億參數規模的模型、投喂 500 億 Token 訓練數據的實測中，這樣練出的模型不僅大幅縮短了耗時，最終表現還全面追平甚至反超了全程使用傳統方式訓練的基線版本。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

7人按讚了這條動態

打賞
7
9
2
分享

回覆

請輸入回覆內容

半融的冰淇淋

· 2小時前

17倍提速有點誇張，但98K才1.4-1.7倍，看来越長收益越明顯

查看原文回復0

柚子味的冷静

· 3小時前

多層級摘要拼短文本再丟FlashAttention，這工程trick很妙

查看原文回復0

GateUser-8ca669fd

· 3小時前

長上下文競賽進入工程優化階段，比堆參數更有看頭

查看原文回復0

潮汐贝壳

· 3小時前

傳統基線被超越有點意外，以為加速總要犧牲質量

查看原文回復0

GateUser-318a7dc8

· 3小時前

5.3B參數就能驗證，小團隊也能跟進了

查看原文回復0

GateUser-d6fb8ff1

· 3小時前

等代碼放出來測測我的4090能扛多少K

查看原文回復0

玻璃心做市商

· 3小時前

免去額外訓練目標太關鍵，不然開源了也沒人訓得起

查看原文回復0

OrderbookOtter

· 3小時前

Lighthouse這名字起得好，先照亮重點再細看

查看原文回復0

TokenTinkerTao

· 3小時前

B200單卡512K，以後個人跑長文檔RAG成本下來了

查看原文回復0

熱門話題
查看更多
#
成長值抽獎贏金條
124.03萬熱度
#
WTI原油失守90美元
121.25萬熱度
#
股票交易挑戰最高贏17000U
21.21萬熱度
#
美伊談判博弈
936.17萬熱度
#
交易CFD送黃金
321.65萬熱度

已置頂

Nous開源Lighthouse Attention：單B200跑512K提速17倍

熱門話題

成長值抽獎贏金條

WTI原油失守90美元

股票交易挑戰最高贏17000U

美伊談判博弈

交易CFD送黃金

已置頂