廣場
最新
熱門
新聞
我的主頁
發布
Nous Research 發布 Lighthouse Attention,長序列預訓練提速1.4-1.7倍
ME News
2026-06-04 03:18:07
關注
摘要生成中
AIMPACT 消息,5 月 17 日(UTC+8),Nous Research推出Lighthouse Attention方法,通过选择式层级注意力机制解决长序列预训练中注意力计算成本二次方增长的问题。該方法對Query、Key、Value進行對稱池化,選擇邏輯置於注意力內核外可復用FlashAttention內核,採用兩階段訓練策略。實測在NVIDIA B200上,512K上下文長度下前向傳播提速21倍,前向+反向聯合提速17.3倍,第一階段吞吐量達12.6萬tokens/s/GPU(vs 密集SDPA的4.6萬),端到端加速達1.40×至1.69×,同時保持匹配或更低的訓練loss。在530M參數Llama-3風格模型上驗證,三組Lighthouse運行最終loss(0.698-0.71)優於從頭訓練的密集SDPA基準(0.7237),節省22.5-27小時訓練時間。論文arXiv:2605.06554。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
分享美股交易贏輝達股票
335.3萬 熱度
#
Gate攜手Alpaca鏈接數字資產與股票金融交易
420.8萬 熱度
#
ETH跌幅超5%
14754.15萬 熱度
#
HYPE創歷史新高
944.45萬 熱度
#
成長值抽獎贏金條
128.66萬 熱度
已置頂
網站地圖
Nous Research 發布 Lighthouse Attention,長序列預訓練提速1.4-1.7倍