AMD生态终于有能打的扩散语言模型了,TiDAR这步棋省了多少算力账

ME News
Zyphra发布AMD生态首个扩散语言模型,最高提速7.7倍
Zyphra发布ZAYA1-8B-Diffusion-Preview,将自回归大语言模型转化为混合专家扩散模型,成为首个在 AMD 硬件生态内训练的扩散语言模型。通过 TiDAR 跳过从头预训练,在单次前向可对16个 token 同时去噪,将显存瓶颈转化为算力瓶颈。实测在CCA注意力+无损采样下达4.6x加速,切换混合logit采样器后升至7.7x。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论