Lighthouse Attention 這思路挺妙,先粗篩再精算,把長上下文塞進 FlashAttention 的舒適區,還不用改底層 CUDA,單卡 B200 跑 512K 快 17 倍,訓練收尾再切回全注意力保精度,工程味很正

查看原文
ME News
Nous開源Lighthouse Attention:單B200跑512K提速17倍
AIMPACT稱,Nous Research開源長上下文預訓練機制Lighthouse Attention。單卡B200處理512K文本快約17倍,98K時端到端提速1.4–1.7倍。該機制先粗篩再精算,通過多層級摘要篩出核心片段並拼成短文本,再交給FlashAttention處理;篩選邏輯在內核之外,免去底層代碼與額外訓練目標。為避免模型跳躍閱讀喪失逐字能力,訓練時先用加速模式完成大部分,末尾短時切回全注意力。5.3億參數、500億Token實驗中,耗時顯著下降且最終性能與傳統基線相當甚至超越。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆