Google DeepMind 发布 DiffusionGemma，是 Gemma 4 开源家族的新成员。官方测试显示，在 Nvidia RTX 5090 上可达每秒约 700 个 token，在 H100 上可突破每秒 1,000 个 token，约是同尺寸自回归 Gemma 模型的 4 倍。
（前情提要：Google 推出 Gemma 4 12B 开源模型，16GB 消费型笔记本就能本地运行）
（背景补充：碾压 Google 模型！Tether 推出“手机可跑”的医疗 AI QVAC MedPsy，打破云端限制，解决隐私痛点）

本文目录

切换

不按顺序产字的模型长什么样
速度优势从哪里来
速度背后的代价：品质在所有基准均落后

这一次 Google DeepMind 在 Gemma 4 开源家族里放进了一个异类。大多数语言模型生成文字的方式是“自回归”，简单来说就是，由左到右、一次只决定一个字，前一个字决定后一个字的概率，循序完成一段输出。

DiffusionGemma 的做法完全相反：它先在一张“画布”上铺满占位符号，再反复多趟对整块内容进行“去噪”，最终一次输出整段定稿。这个逻辑更接近 Stable Diffusion 生成影像的方式，而不是 GPT 生成文字的方式。

Google 官方表示，这种架构在本地硬件上有可量化的速度优势，并以 Apache 2.0 授权开放给开发者与研究者使用。

不按顺序产字的模型长什么样

DiffusionGemma 采用“混合专家”（MoE）架构。

MoE 的概念是，模型内部有大量“专家”子网络，但每次推理只启用其中一部分，而不是每次都动员全部参数，白话说就是，虽然整个模型很大，但每次运算只调用必要的那几个专家。DiffusionGemma 的总参数量为 260 亿（26B），推理时实际启用的只有 38 亿（3.8B）。这让它能塞进高阶显卡的 18GB VRAM 内运行，量化后尤其如此。

生成流程更值得拆解。标准自回归模型是线性生产线：第 1 个 token 出来后，第 2 个才能开始计算，以此类推。

DiffusionGemma 则是在整块输出区域铺上占位 token，然后进行多趟去噪，每一趟都让所有位置的 token 同时更新、相互修正估计值，直到整块内容收敛为最终输出。一次最多可以并行处理 256 个 token。

这个设计对“非线性任务”有具体意义。Google 举的例子是解数独：传统自回归模型在这类任务上表现普通，因为正确填入某个格子往往依赖其他尚未决定的格子，但自回归只能依序往前走，无法回头。DiffusionGemma 能持续对整批 token 做自我修正，在逻辑依存关系错综复杂的任务上理论上更有利。

其他官方提及的适用场景包括：行内编辑（in-line editing）、分子序列生成、数学绘图。

速度优势从哪里来

从硬件角度看，自回归模型的推理速度受“内存带宽”制约，每输出一个 token 就要从内存读一次模型权重，内存搬资料的速度是瓶颈。扩散模型的瓶颈则不同，它是“算力”密集型，一次算大批 token、但每个 token 分摊到的内存读取次数少很多。

这个瓶颈的转移有实际的经济含义。现代 GPU 的算力通常远比内存带宽充裕，自回归“一次一个 token”的生成方式，等于让昂贵的运算单元一直在等内存喂资料、长期处于半闲置状态。

扩散式生成把工作量摊平成大批平行计算，反而能把 GPU 的算力吃好吃满，对需要长时间、大批次产出的应用场景，这种“把硬件用好用满”的特性，有时比单纯的速度数字更实际。

这个差异在现代 GPU 上有直接的速度体现。Google 官方测试数字如下：在消费级的 Nvidia RTX 5090 上，DiffusionGemma 的输出速度约为每秒 700 个 token；在数据中心级的单张 Nvidia H100 AI 加速器上，可达每秒 1,000 个 token 以上。根据 Google 自评，这约是同尺寸标准自回归 Gemma 模型的 4 倍速度。

强调一下，上述数字均来自 Google 官方测试，非第三方独立验证。不同场景、不同生成长度下，实际倍率可能有差异。

速度背后的代价：品质在所有基准均落后

不过在所有已公布的公开基准测试中，DiffusionGemma 的分数均低于标准 Gemma 4。换句话说，4 倍的速度不是凭空得来的，它的代价是生成品质的系统性下滑。

这个取舍对不同使用情境有截然不同的含义。如果你在意每秒输出量，例如需要大规模批次处理、在边缘设备上跑本地推理、或是对延迟有高度敏感的应用场景，DiffusionGemma 的速度优势是真实的。如果你的任务对答案品质有较高要求，标准 Gemma 4 目前仍然更可靠。

对本地 AI 社群而言，这个模型代表的是一种取舍方向的具体化：在有限的本地硬件上，你愿意用多少品质换多少速度？这个问题，现在有了一个可以直接跑实验的参照点。Apache 2.0 授权意味着任何开发者都可以基于它做微调与研究，扩散式语言生成的实际天花板，接下来要靠社区来测。

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
MyGateTradeStory
42,37K Популярность
#
USMayCPIHitsThreeYearHigh
314,08K Популярность
#
IsraelStrikesIranBTCPlunges
57,21K Популярность
#
USIranConflictEscalates
693,79K Популярность
#
GateLaunchesHongKongStockTrading
787,01K Популярность

Закреплено

Карта сайта

Google 新開源 DiffusionGemma 模型：生成快 4 倍，但品質落後 Gemma 4

不按顺序产字的模型长什么样

速度优势从哪里来

速度背后的代价：品质在所有基准均落后

Популярные темы

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Закреплено