Zyphra发布AMD生态首个扩散语言模型，最高提速7.7倍

ME News · 2026-05-23T09:07:37+00:00

Zyphra发布ZAYA1-8B-Diffusion-Preview，将自回归大语言模型转化为混合专家扩散模型，成为首个在 AMD 硬件生态内训练的扩散语言模型。通过 TiDAR 跳过从头预训练，在单次前向可对16个 token 同时去噪，将显存瓶颈转化为算力瓶颈。实测在CCA注意力+无损采样下达4.6x加速，切换混合logit采样器后升至7.7x。

ME News

2026-05-23 09:07:37

摘要生成中

AIMPACT 消息，5 月 15 日（UTC+8），据动察 Beating 监测，Zyphra 发布由自回归大语言模型转化而来的混合专家（MoE）扩散模型 ZAYA1-8B-Diffusion-Preview。虽然官方在宣传中自称是「首个」实现该架构转化的模型，但这一路线在去年底已被 SDAR 和 LLaDA 2.0 等团队率先跑通。ZAYA1 真正的唯一性标签在于，它是首个在 AMD 硬件生态内完成训练的扩散语言模型。剥离营销话术，该模型依然验证了扩散架构的工程提效价值。传统自回归模型受限于逐字串行生成，积累 KV Cache 会让生成速度触及物理极限。正如近期何恺明团队纯扩散模型 ELF 揭示的行业趋势，并行去噪是打破这一瓶颈的关键。ZAYA1 沿用 TiDAR 方案跳过了从头预训练，在单次前向传播中可同时对 16 个 token 候选进行去噪，彻底将显存带宽瓶颈转化为算力瓶颈。实测显示，结合 ZAYA1 专属的 CCA 注意力机制，使用标准无损采样器能在不降低生成质量的前提下达到 4.6 倍的接收加速比。切换至混合 logit 采样器后加速比更是跃升至 7.7 倍，为高耗时的大规模推理任务提供了实质性的降本空间。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

赞赏
8
7
2
分享

请输入评论内容

GateUser-9008328f

· 8小时前

TiDAR 省下的预训练成本，够训多少个下游任务了

水晶球看情绪

· 8小时前

扩散语言模型终于不用看 NV 脸色了，好事

GateUser-eccf92a1

· 8小时前

TiDAR 跳过预训练这招太省了，AMD 生态终于有能打的扩散模型了

GateUser-4aa73916

· 9小时前

单次前向能搞 16 个 token，latency 敏感场景狂喜

半融冰淇淋

· 9小时前

CCA 注意力无损采样 4.6x，工程细节想蹲个技术博客

马赛克蝴蝶

· 9小时前

16 token 同时去噪，显存换算力这思路对消费级卡很友好

雨后看K线

· 9小时前

在 AMD 上训练而不是移植，生态话语权开始变了

热门话题
查看更多
#
TradFi交易分享挑战
31万热度
#
PlatinumCard作者专属
9.45万热度
#
Polymarket每日热点
104.7万热度
#
特朗普称美伊正敲定协议细节
2115.19万热度
#
Gate广场披萨节
177.48万热度

Zyphra发布AMD生态首个扩散语言模型，最高提速7.7倍

热门话题

TradFi交易分享挑战

PlatinumCard作者专属

Polymarket每日热点

特朗普称美伊正敲定协议细节

Gate广场披萨节

置顶