Nous Research 發布 Lighthouse Attention,長序列預訓練提速1.4-1.7倍

robot
摘要生成中
AIMPACT 消息,5 月 17 日(UTC+8),Nous Research推出Lighthouse Attention方法,通过选择式层级注意力机制解决长序列预训练中注意力计算成本二次方增长的问题。該方法對Query、Key、Value進行對稱池化,選擇邏輯置於注意力內核外可復用FlashAttention內核,採用兩階段訓練策略。實測在NVIDIA B200上,512K上下文長度下前向傳播提速21倍,前向+反向聯合提速17.3倍,第一階段吞吐量達12.6萬tokens/s/GPU(vs 密集SDPA的4.6萬),端到端加速達1.40×至1.69×,同時保持匹配或更低的訓練loss。在530M參數Llama-3風格模型上驗證,三組Lighthouse運行最終loss(0.698-0.71)優於從頭訓練的密集SDPA基準(0.7237),節省22.5-27小時訓練時間。論文arXiv:2605.06554。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆