廣場
最新
熱門
新聞
我的主頁
發布
GateUser-0f8d377b
2026-06-01 17:08:02
關注
Lighthouse Attention 這思路挺妙,先粗篩再精算,把長上下文塞進 FlashAttention 的舒適區,還不用改底層 CUDA,單卡 B200 跑 512K 快 17 倍,訓練收尾再切回全注意力保精度,工程味很正
查看原文
ME News
2026-06-01 16:35:52
Nous開源Lighthouse Attention:單B200跑512K提速17倍
AIMPACT稱,Nous Research開源長上下文預訓練機制Lighthouse Attention。單卡B200處理512K文本快約17倍,98K時端到端提速1.4–1.7倍。該機制先粗篩再精算,通過多層級摘要篩出核心片段並拼成短文本,再交給FlashAttention處理;篩選邏輯在內核之外,免去底層代碼與額外訓練目標。為避免模型跳躍閱讀喪失逐字能力,訓練時先用加速模式完成大部分,末尾短時切回全注意力。5.3億參數、500億Token實驗中,耗時顯著下降且最終性能與傳統基線相當甚至超越。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
分享美股交易贏輝達股票
328.97萬 熱度
#
Gate攜手Alpaca鏈接數字資產與股票金融交易
186.95萬 熱度
#
BTC觸底66000
6.64萬 熱度
#
ZEC逆勢上漲
503萬 熱度
#
成長值抽獎贏金條
129.35萬 熱度
已置頂
網站地圖
Lighthouse Attention 這思路挺妙,先粗篩再精算,把長上下文塞進 FlashAttention 的舒適區,還不用改底層 CUDA,單卡 B200 跑 512K 快 17 倍,訓練收尾再切回全注意力保精度,工程味很正