📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
Sakana AI联合英伟达:让GPU跳过大模型八成无效计算,H100推理提速30%
大模型的前馈层(FFN)吃掉了绝大部分的参数和算力。但实际上,每次生成文字时,这里有超过 80% 的神经元都处于「休眠状态」(激活值接近零),对最终结果毫无贡献。如果能跳过这些神经元,就能省下海量算力。然而,现代 GPU 天生只擅长计算整齐划一的密集矩阵,如果用传统方法去挑出散落的有用数据,光是来回寻找和读取数据的开销,就会把省下来的算力全搭进去。
TwELL 格式正是为了打破这个硬件魔咒。它完全顺着 GPU 的并行逻辑设计:不再像传统方法那样跨区域拼凑非零数据,而是把数据切成 GPU 最擅长处理的小方块(tile)。这样,GPU 的各个计算核心就能在本地直接打包有用的数据,彻底省去了耗时的全局显存读写,完美融入现代芯片的加速流水线。
在 15 亿参数模型的实测中,只需在训练时加一点轻微的正则化,就能把真正需要计算的神经元比例压低到不足 2%,且七项下游任务的表现均未下降。数据还揭示了一个规律:模型参数量越大,休眠的神经元就越多(20 亿参数模型的非零比例比 5 亿模型还要低 38%)。这意味着,在未来追求更大规模的大模型时,这套针对底层硬件的优化将释放出更可观的性能红利。