AIMPACT 消息，5 月 16 日（UTC+8），据动察 Beating 监测，Nous Research 开源了长上下文预训练机制 Lighthouse Attention。在单张 B200 显卡上处理 512K 长度文本时，该方案的计算速度比传统机制快约 17 倍，并在 98K 长度下实现了 1.4 到 1.7 倍的端到端训练提速。传统注意力机制需要计算所有字词的两两关系，文本一长，算力消耗就会呈平方级暴涨。Lighthouse Attention 改用先粗筛再精算的思路。它会先在不同层级快速浏览文本的压缩摘要，通过打分挑出核心片段拼成短文本，然后直接交给现成的高效算子 FlashAttention 处理。由于筛选逻辑被彻底剥离到了内核之外，开发者直接省去了手写底层代码的麻烦，也不用增加额外的训练目标。过去采用类似思路的加速方案常有副作用，模型习惯跳跃阅读后，极易丧失原本逐字精读的能力。为了避开这个陷阱，研发团队让模型先用加速模式跑完绝大部分进度，只在训练末尾短暂切回传统的全注意力计算稍作适应。在针对 5.3 亿参数规模的模型、投喂 500 亿 Token 训练数据的实测中，这样练出的模型不仅大幅缩短了耗时，最终表现还全面追平甚至反超了全程使用传统方式训练的基线版本。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

7人点赞了这条动态

赞赏
7
9
2
分享

请输入评论内容

半融的冰淇淋

· 30 分钟前

17倍提速有点夸张，但98K才1.4-1.7倍，看来越长收益越明显

柚子味的冷静

· 1小时前

多层级摘要拼短文本再丢FlashAttention，这工程trick很妙

GateUser-8ca669fd

· 1小时前

长上下文竞赛进入工程优化阶段，比堆参数更有看头

潮汐贝壳

· 1小时前

传统基线被超越有点意外，以为加速总要牺牲质量

GateUser-318a7dc8

· 1小时前

5.3B参数就能验证，小团队也能跟进了

GateUser-d6fb8ff1

· 1小时前

等代码放出来测测我的4090能扛多少K

玻璃心做市商

· 1小时前

免去额外训练目标太关键，不然开源了也没人训得起

OrderbookOtter

· 1小时前

Lighthouse这名字起得好，先照亮重点再细看

TokenTinkerTao

· 1小时前

B200单卡512K，以后个人跑长文档RAG成本下来了

热门话题
查看更多
#
成长值抽奖赢金条
123.92万热度
#
WTI原油失守90美元
121.16万热度
#
股票交易挑战最高赢17000U
21.13万热度
#
美伊谈判博弈
936.16万热度
#
交易CFD送黄金
323.12万热度

置顶

Nous开源Lighthouse Attention：单B200跑512K提速17倍

热门话题

成长值抽奖赢金条

WTI原油失守90美元

股票交易挑战最高赢17000U

美伊谈判博弈

交易CFD送黄金

置顶