10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Nous Research发布Lighthouse Attention,长序列预训练提速1.4-1.7倍
AIMPACT 消息,5 月 17 日(UTC+8),Nous Research推出Lighthouse Attention方法,通过选择式层级注意力机制解决长序列预训练中注意力计算成本二次方增长的问题。该方法对Query、Key、Value进行对称池化,选择逻辑置于注意力内核外可复用FlashAttention内核,采用两阶段训练策略。实测在NVIDIA B200上,512K上下文长度下前向传播提速21倍,前向+反向联合提速17.3倍,第一阶段吞吐量达12.6万tokens/s/GPU(vs 密集SDPA的4.6万),端到端加速达1.40×至1.69×,同时保持匹配或更低的训练loss。在530M参数Llama-3风格模型上验证,三组Lighthouse运行最终loss(0.698-0.71)优于从头训练的密集SDPA基准(0.7237),节省22.5-27小时训练时间。论文arXiv:2605.06554。