ZAYA1-8B这架构有点意思,自回归改MoE扩散还能单次前向去噪16token,7.7x加速是真把显存压力转成算力压榨了

ME News
Zyphra发布AMD生态首个扩散语言模型,最高提速7.7倍
Zyphra发布ZAYA1-8B-Diffusion-Preview,将自回归大语言模型转化为混合专家扩散模型,成为首个在 AMD 硬件生态内训练的扩散语言模型。通过 TiDAR 跳过从头预训练,在单次前向可对16个 token 同时去噪,将显存瓶颈转化为算力瓶颈。实测在CCA注意力+无损采样下达4.6x加速,切换混合logit采样器后升至7.7x。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论