广场
最新
热门
资讯
我的主页
发布
Nous开源Lighthouse Attention:单B200跑512K提速17倍
ME News
2026-05-31 17:22:07
关注
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),据 动察 Beating 监测,Nous Research 开源了长上下文预训练机制 Lighthouse Attention。在单张 B200 显卡上处理 512K 长度文本时,该方案的计算速度比传统机制快约 17 倍,并在 98K 长度下实现了 1.4 到 1.7 倍的端到端训练提速。 传统注意力机制需要计算所有字词的两两关系,文本一长,算力消耗就会呈平方级暴涨。Lighthouse Attention 改用先粗筛再精算的思路。它会先在不同层级快速浏览文本的压缩摘要,通过打分挑出核心片段拼成短文本,然后直接交给现成的高效算子 FlashAttention 处理。由于筛选逻辑被彻底剥离到了内核之外,开发者直接省去了手写底层代码的麻烦,也不用增加额外的训练目标。 过去采用类似思路的加速方案常有副作用,模型习惯跳跃阅读后,极易丧失原本逐字精读的能力。为了避开这个陷阱,研发团队让模型先用加速模式跑完绝大部分进度,只在训练末尾短暂切回传统的全注意力计算稍作适应。在针对 5.3 亿参数规模的模型、投喂 500 亿 Token 训练数据的实测中,这样练出的模型不仅大幅缩短了耗时,最终表现还全面追平甚至反超了全程使用传统方式训练的基线版本。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
7人点赞了这条动态
赞赏
7
9
2
分享
评论
请输入评论内容
请输入评论内容
评论
半融的冰淇淋
· 30 分钟前
17倍提速有点夸张,但98K才1.4-1.7倍,看来越长收益越明显
回复
0
柚子味的冷静
· 1小时前
多层级摘要拼短文本再丢FlashAttention,这工程trick很妙
回复
0
GateUser-8ca669fd
· 1小时前
长上下文竞赛进入工程优化阶段,比堆参数更有看头
回复
0
潮汐贝壳
· 1小时前
传统基线被超越有点意外,以为加速总要牺牲质量
回复
0
GateUser-318a7dc8
· 1小时前
5.3B参数就能验证,小团队也能跟进了
回复
0
GateUser-d6fb8ff1
· 1小时前
等代码放出来测测我的4090能扛多少K
回复
0
玻璃心做市商
· 1小时前
免去额外训练目标太关键,不然开源了也没人训得起
回复
0
OrderbookOtter
· 1小时前
Lighthouse这名字起得好,先照亮重点再细看
回复
0
TokenTinkerTao
· 1小时前
B200单卡512K,以后个人跑长文档RAG成本下来了
回复
0
查看更多
热门话题
查看更多
#
成长值抽奖赢金条
123.92万 热度
#
WTI原油失守90美元
121.16万 热度
#
股票交易挑战最高赢17000U
21.13万 热度
#
美伊谈判博弈
936.16万 热度
#
交易CFD送黄金
323.12万 热度
置顶
网站地图
Nous开源Lighthouse Attention:单B200跑512K提速17倍