Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

Google DeepMind 发布 DiffusionGemma,是 Gemma 4 开源家族的新成员。官方测试显示,在 Nvidia RTX 5090 上可达每秒约 700 个 token,在 H100 上可突破每秒 1,000 个 token,约是同尺寸自回归 Gemma 模型的 4 倍。
(前情提要:Google 推出 Gemma 4 12B 开源模型,16GB 消费型笔记本就能本地运行)
(背景补充:碾压 Google 模型!Tether 推出“手机可跑”的医疗 AI QVAC MedPsy,打破云端限制,解决隐私痛点)

本文目录

切换

  • 不按顺序产字的模型长什么样
  • 速度优势从哪里来
  • 速度背后的代价:品质在所有基准均落后

这一次 Google DeepMind 在 Gemma 4 开源家族里放进了一个异类。大多数语言模型生成文字的方式是“自回归”,简单来说就是,由左到右、一次只决定一个字,前一个字决定后一个字的概率,循序完成一段输出。

DiffusionGemma 的做法完全相反:它先在一张“画布”上铺满占位符号,再反复多趟对整块内容进行“去噪”,最终一次输出整段定稿。这个逻辑更接近 Stable Diffusion 生成影像的方式,而不是 GPT 生成文字的方式。

Google 官方表示,这种架构在本地硬件上有可量化的速度优势,并以 Apache 2.0 授权开放给开发者与研究者使用。

不按顺序产字的模型长什么样

DiffusionGemma 采用“混合专家”(MoE)架构。

MoE 的概念是,模型内部有大量“专家”子网络,但每次推理只启用其中一部分,而不是每次都动员全部参数,白话说就是,虽然整个模型很大,但每次运算只调用必要的那几个专家。DiffusionGemma 的总参数量为 260 亿(26B),推理时实际启用的只有 38 亿(3.8B)。这让它能塞进高阶显卡的 18GB VRAM 内运行,量化后尤其如此。

生成流程更值得拆解。标准自回归模型是线性生产线:第 1 个 token 出来后,第 2 个才能开始计算,以此类推。

DiffusionGemma 则是在整块输出区域铺上占位 token,然后进行多趟去噪,每一趟都让所有位置的 token 同时更新、相互修正估计值,直到整块内容收敛为最终输出。一次最多可以并行处理 256 个 token。

这个设计对“非线性任务”有具体意义。Google 举的例子是解数独:传统自回归模型在这类任务上表现普通,因为正确填入某个格子往往依赖其他尚未决定的格子,但自回归只能依序往前走,无法回头。DiffusionGemma 能持续对整批 token 做自我修正,在逻辑依存关系错综复杂的任务上理论上更有利。

其他官方提及的适用场景包括:行内编辑(in-line editing)、分子序列生成、数学绘图。

速度优势从哪里来

从硬件角度看,自回归模型的推理速度受“内存带宽”制约,每输出一个 token 就要从内存读一次模型权重,内存搬资料的速度是瓶颈。扩散模型的瓶颈则不同,它是“算力”密集型,一次算大批 token、但每个 token 分摊到的内存读取次数少很多。

这个瓶颈的转移有实际的经济含义。现代 GPU 的算力通常远比内存带宽充裕,自回归“一次一个 token”的生成方式,等于让昂贵的运算单元一直在等内存喂资料、长期处于半闲置状态。

扩散式生成把工作量摊平成大批平行计算,反而能把 GPU 的算力吃好吃满,对需要长时间、大批次产出的应用场景,这种“把硬件用好用满”的特性,有时比单纯的速度数字更实际。

这个差异在现代 GPU 上有直接的速度体现。Google 官方测试数字如下:在消费级的 Nvidia RTX 5090 上,DiffusionGemma 的输出速度约为每秒 700 个 token;在数据中心级的单张 Nvidia H100 AI 加速器上,可达每秒 1,000 个 token 以上。根据 Google 自评,这约是同尺寸标准自回归 Gemma 模型的 4 倍速度。

强调一下,上述数字均来自 Google 官方测试,非第三方独立验证。不同场景、不同生成长度下,实际倍率可能有差异。

速度背后的代价:品质在所有基准均落后

不过在所有已公布的公开基准测试中,DiffusionGemma 的分数均低于标准 Gemma 4。换句话说,4 倍的速度不是凭空得来的,它的代价是生成品质的系统性下滑。

这个取舍对不同使用情境有截然不同的含义。如果你在意每秒输出量,例如需要大规模批次处理、在边缘设备上跑本地推理、或是对延迟有高度敏感的应用场景,DiffusionGemma 的速度优势是真实的。如果你的任务对答案品质有较高要求,标准 Gemma 4 目前仍然更可靠。

对本地 AI 社群而言,这个模型代表的是一种取舍方向的具体化:在有限的本地硬件上,你愿意用多少品质换多少速度?这个问题,现在有了一个可以直接跑实验的参照点。Apache 2.0 授权意味着任何开发者都可以基于它做微调与研究,扩散式语言生成的实际天花板,接下来要靠社区来测。

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено