广场
最新
热门
资讯
我的主页
发布
GateUser-0f8d377b
2026-06-01 17:08:02
关注
Lighthouse Attention 这思路挺妙,先粗筛再精算,把长上下文塞进 FlashAttention 的舒适区,还不用改底层 CUDA,单卡 B200 跑 512K 快 17 倍,训练收尾再切回全注意力保精度,工程味很正
ME News
2026-06-01 16:35:52
Nous开源Lighthouse Attention:单B200跑512K提速17倍
AIMPACT称,Nous Research开源长上下文预训练机制Lighthouse Attention。单卡B200处理512K文本快约17倍,98K时端到端提速1.4–1.7倍。该机制先粗筛再精算,通过多层级摘要筛出核心片段并拼成短文本,再交给FlashAttention处理;筛选逻辑在内核之外,免去底层代码与额外训练目标。为避免模型跳跃阅读丧失逐字能力,训练时先用加速模式完成大部分,末尾短时切回全注意力。5.3亿参数、500亿Token实验中,耗时显著下降且最终性能与传统基线相当甚至超越。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
分享美股交易赢英伟达股票
328.97万 热度
#
Gate携手Alpaca链接数字资产与股票金融交易
186.95万 热度
#
BTC触底66000
6.64万 热度
#
ZEC逆势上涨
503万 热度
#
成长值抽奖赢金条
129.35万 热度
置顶
网站地图
Lighthouse Attention 这思路挺妙,先粗筛再精算,把长上下文塞进 FlashAttention 的舒适区,还不用改底层 CUDA,单卡 B200 跑 512K 快 17 倍,训练收尾再切回全注意力保精度,工程味很正