开源了!Nous 这波把筛选逻辑放内核外,不用改底层 CUDA 也不用加训练目标,即插即用,长文本 infra 的痛点被拿捏了。

ME News
Nous开源Lighthouse Attention:单B200跑512K提速17倍
AIMPACT称,Nous Research开源长上下文预训练机制Lighthouse Attention。单卡B200处理512K文本快约17倍,98K时端到端提速1.4–1.7倍。该机制先粗筛再精算,通过多层级摘要筛出核心片段并拼成短文本,再交给FlashAttention处理;筛选逻辑在内核之外,免去底层代码与额外训练目标。为避免模型跳跃阅读丧失逐字能力,训练时先用加速模式完成大部分,末尾短时切回全注意力。5.3亿参数、500亿Token实验中,耗时显著下降且最终性能与传统基线相当甚至超越。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论