Meta等推出BLT加速方法,内存带宽最多降低92%

AIMPACT 消息,5 月 12 日(UTC+8),Meta、斯坦福大学和华盛顿大学研究团队近日推出三种新方法,显著加速Byte Latent Transformer(BLT)的推理速度。BLT是一种直接在原始字节上运行的语言模型,通过熵基分割策略将字节动态分组为变长补丁,匹配基于分词模型性能。由于逐字节自回归解码需多次前向传递,内存带宽成为主要瓶颈。 三种加速方法如下:BLT-D采用分块离散扩散,训练结合下一字节预测和掩码字节预测损失,每次前向传递生成多字节,块大小4时内存带宽不足BLT一半,块大小16时降低87-92%;BLT-S利用轻量级本地解码器作为投机草稿器,无需额外训练,在贪婪解码下输出与标准BLT完全一致,可实现77%内存带宽减少;BLT-DV结合扩散起草与自回归验证,相同模型权重可双向使用,内存带宽降低81%。 所有方法在翻译任务上获益最多,编码任务对块大小较敏感。在ARC-Easy、ARC-Challenge、PIQA、HellaSwag、MMLU等基于可能性的基准测试上,BLT-D分数接近BLT基线,推理能力保持稳健。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论