Zyphra发布AMD生态首个扩散语言模型,最高提速7.7倍

robot
摘要生成中
AIMPACT 消息,5 月 15 日(UTC+8),据 动察 Beating 监测,Zyphra 发布由自回归大语言模型转化而来的混合专家(MoE)扩散模型 ZAYA1-8B-Diffusion-Preview。虽然官方在宣传中自称是「首个」实现该架构转化的模型,但这一路线在去年底已被 SDAR 和 LLaDA 2.0 等团队率先跑通。ZAYA1 真正的唯一性标签在于,它是首个在 AMD 硬件生态内完成训练的扩散语言模型。 剥离营销话术,该模型依然验证了扩散架构的工程提效价值。传统自回归模型受限于逐字串行生成,积累 KV Cache 会让生成速度触及物理极限。正如近期何恺明团队纯扩散模型 ELF 揭示的行业趋势,并行去噪是打破这一瓶颈的关键。ZAYA1 沿用 TiDAR 方案跳过了从头预训练,在单次前向传播中可同时对 16 个 token 候选进行去噪,彻底将显存带宽瓶颈转化为算力瓶颈。 实测显示,结合 ZAYA1 专属的 CCA 注意力机制,使用标准无损采样器能在不降低生成质量的前提下达到 4.6 倍的接收加速比。切换至混合 logit 采样器后加速比更是跃升至 7.7 倍,为高耗时的大规模推理任务提供了实质性的降本空间。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-9008328f
· 8小时前
TiDAR 省下的预训练成本,够训多少个下游任务了
回复0
水晶球看情绪
· 8小时前
扩散语言模型终于不用看 NV 脸色了,好事
回复0
GateUser-eccf92a1
· 8小时前
TiDAR 跳过预训练这招太省了,AMD 生态终于有能打的扩散模型了
回复0
GateUser-4aa73916
· 9小时前
单次前向能搞 16 个 token,latency 敏感场景狂喜
回复0
半融冰淇淋
· 9小时前
CCA 注意力无损采样 4.6x,工程细节想蹲个技术博客
回复0
马赛克蝴蝶
· 9小时前
16 token 同时去噪,显存换算力这思路对消费级卡很友好
回复0
雨后看K线
· 9小时前
在 AMD 上训练而不是移植,生态话语权开始变了
回复0