Google 新開源 DiffusionGemma 模型：生成快 4 倍，但品質落後 Gemma 4

2026-06-11 04:00:11

Google DeepMind 发布 DiffusionGemma，是 Gemma 4 开源家族的新成員。官方測試顯示，在 Nvidia RTX 5090 上可达每秒约 700 个 token，在 H100 上可突破每秒 1,000 个 token，约是同尺寸自迴歸 Gemma 模型的 4 倍。
（前情提要：Google 推出 Gemma 4 12B 开源模型，16GB 消费型筆电就能本地執行）
（背景補充：輾壓 Google 模型！Tether 推出「手机可跑」的醫療 AI QVAC MedPsy，斷开雲端破除隐私痛点）

本文目錄

Toggle

不按順序产字的模型长什麼樣
速度優勢从哪裡来
速度背后的代价：品质在所有基準均落后

这一次 Google DeepMind 在 Gemma 4 开源家族裡放进了一个異類。大多數语言模型生成文字的方式是「自迴歸」，簡單来说就是，由左到右、一次只決定一个字，前一个字決定后一个字的机率，循序完成一段输出。

DiffusionGemma 的做法完全相反：它先在一張「畫布」上鋪滿佔位符號，再反覆多趟对整塊內容进行「去噪」，最終一次输出整段定稿。这个逻辑更接近 Stable Diffusion 生成影像的方式，而不是 GPT 生成文字的方式。

Google 官方表示，这種架構在本地硬體上有可量化的速度優勢，並以 Apache 2.0 授權开放給开发者与研究者使用。

不按順序产字的模型长什麼樣

DiffusionGemma 採用「混合專家」（MoE）架構。

MoE 的概念是，模型內部有大量「專家」子網路，但每次推論只啟用其中一部分，而不是每次都动員全部參數，白話说就是，雖然整个模型很大，但每次运算只呼叫必要的那幾个專家。DiffusionGemma 的總參數量为 260 亿（26B），推論时实际啟用的只有 38 亿（3.8B）。这让它能塞进高階顯示卡的 18GB VRAM 內執行，量化后尤其如此。

生成流程更值得拆解。標準自迴歸模型是線性生产線：第 1 个 token 出来后，第 2 个才能开始计算，以此類推。

DiffusionGemma 則是先在整塊输出区域鋪上佔位 token，然后进行多趟去噪，每一趟都让所有位置的 token 同时更新、互相修正估计值，直到整塊內容收斂为最終输出。一次最多可以平行處理 256 个 token。

这个设计对「非線性任務」有具體意義。Google 舉的例子是解數獨：傳统自迴歸模型在这類任務上表现普通，因为正確填入某个格子往往依賴其他尚未決定的格子，但自迴歸只能依序往前走，无法回头。DiffusionGemma 能持续对整批 token 做自我修正，在逻辑依存关係错綜複雜的任務上理論上更有利。

其他官方提及的适用场景包括：行內編辑（in-line editing）、分子序列生成、數学繪圖。

速度優勢从哪裡来

从硬體角度看，自迴歸模型的推論速度受「記憶體频寬」制约，每输出一个 token 就要从記憶體读一次模型權重，記憶體搬资料的速度是瓶頸。擴散模型的瓶頸則不同，它是「算力」密集型，一次算大批 token、但每个 token 分攤到的記憶體读取次數少很多。

这个瓶頸的转移有实际的经濟意涵。现代 GPU 的算力通常远比記憶體频寬充裕，自迴歸「一次一个 token」的生成方式，等於让昂貴的运算單元一直在等記憶體餵资料、长期處於半閒置狀態。

擴散式生成把工作量攤平成大批平行计算，反而能把 GPU 的算力吃好吃滿，对需要长时间、大批次产出的应用场景，这種「把硬體用好用滿」的特性，有时比單純的速度數字更实际。

这个差異在现代 GPU 上有直接的速度體现。Google 官方測試數字如下：在消费級的 Nvidia RTX 5090 上，DiffusionGemma 的输出速度约为每秒 700 个 token；在资料中心級的單張 Nvidia H100 AI 加速器上，可达每秒 1,000 个 token 以上。根據 Google 自評，这约是同尺寸標準自迴歸 Gemma 模型的 4 倍速度。

动区要強调，上述數字均来自 Google 官方測試，非第三方獨立验证。不同场景、不同生成长度下，实际倍率可能有落差。

速度背后的代价：品质在所有基準均落后

不过在所有已公布的公开基準測試中，DiffusionGemma 的分數均低於標準 Gemma 4。換句話说，4 倍的速度不是憑空得来的，它的代价是生成品质的系统性下滑。

这个取捨对不同使用情境有截然不同的含義。如果你在意每秒输出量，例如需要大規模批次處理、在边緣裝置上跑本地推論、或是对延遲有高度敏感的应用场景，DiffusionGemma 的速度優勢是真实的。如果你的任務对答案品质有较高要求，標準 Gemma 4 目前仍然更可靠。

对本地 AI 社群而言，这个模型代表的是一種取捨方向的具體化：在有限的本地硬體上，你願意用多少品质換多少速度？这个问題，现在有了一个可以直接跑实验的參照点。Apache 2.0 授權意味著任何开发者都可以基於它做微调与研究，擴散式语言生成的实际天花板，接下来要靠社群来測。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
我的Gate交易时刻
4.23万热度
#
美国5月CPI创三年新高
31.4万热度
#
预测世界杯墨西哥VS南非
72.73万热度
#
美伊冲突升级
69.37万热度
#
Gate上线港股交易
78.7万热度

Google 新開源 DiffusionGemma 模型：生成快 4 倍，但品質落後 Gemma 4

不按順序产字的模型长什麼樣

速度優勢从哪裡来

速度背后的代价：品质在所有基準均落后

热门话题

我的Gate交易时刻

美国5月CPI创三年新高

预测世界杯墨西哥VS南非

美伊冲突升级

Gate上线港股交易

置顶