Lighthouse Attention 這思路挺巧,先粗篩再精算,把長文本砍成短片段喂給 FlashAttention,單卡 B200 上 512K 能快 17 倍,訓練末期再切回全注意力防跳讀,5.3B 模型跑下來性能還不掉,長上下文優化終於不用死磕底層 kernel 了

查看原文
原文已不可見
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆