📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind 发布 DiffusionGemma,是 Gemma 4 开源家族的新成員。官方測試顯示,在 Nvidia RTX 5090 上可达每秒约 700 个 token,在 H100 上可突破每秒 1,000 个 token,约是同尺寸自迴歸 Gemma 模型的 4 倍。
(前情提要:Google 推出 Gemma 4 12B 开源模型,16GB 消费型筆电就能本地執行)
(背景補充:輾壓 Google 模型!Tether 推出「手机可跑」的醫療 AI QVAC MedPsy,斷开雲端破除隐私痛点)
本文目錄
Toggle
这一次 Google DeepMind 在 Gemma 4 开源家族裡放进了一个異類。大多數语言模型生成文字的方式是「自迴歸」,簡單来说就是,由左到右、一次只決定一个字,前一个字決定后一个字的机率,循序完成一段输出。
DiffusionGemma 的做法完全相反:它先在一張「畫布」上鋪滿佔位符號,再反覆多趟对整塊內容进行「去噪」,最終一次输出整段定稿。这个逻辑更接近 Stable Diffusion 生成影像的方式,而不是 GPT 生成文字的方式。
Google 官方表示,这種架構在本地硬體上有可量化的速度優勢,並以 Apache 2.0 授權开放給开发者与研究者使用。
不按順序产字的模型长什麼樣
DiffusionGemma 採用「混合專家」(MoE)架構。
MoE 的概念是,模型內部有大量「專家」子網路,但每次推論只啟用其中一部分,而不是每次都动員全部參數,白話说就是,雖然整个模型很大,但每次运算只呼叫必要的那幾个專家。DiffusionGemma 的總參數量为 260 亿(26B),推論时实际啟用的只有 38 亿(3.8B)。这让它能塞进高階顯示卡的 18GB VRAM 內執行,量化后尤其如此。
生成流程更值得拆解。標準自迴歸模型是線性生产線:第 1 个 token 出来后,第 2 个才能开始计算,以此類推。
DiffusionGemma 則是先在整塊输出区域鋪上佔位 token,然后进行多趟去噪,每一趟都让所有位置的 token 同时更新、互相修正估计值,直到整塊內容收斂为最終输出。一次最多可以平行處理 256 个 token。
这个设计对「非線性任務」有具體意義。Google 舉的例子是解數獨:傳统自迴歸模型在这類任務上表现普通,因为正確填入某个格子往往依賴其他尚未決定的格子,但自迴歸只能依序往前走,无法回头。DiffusionGemma 能持续对整批 token 做自我修正,在逻辑依存关係错綜複雜的任務上理論上更有利。
其他官方提及的适用场景包括:行內編辑(in-line editing)、分子序列生成、數学繪圖。
速度優勢从哪裡来
从硬體角度看,自迴歸模型的推論速度受「記憶體频寬」制约,每输出一个 token 就要从記憶體读一次模型權重,記憶體搬资料的速度是瓶頸。擴散模型的瓶頸則不同,它是「算力」密集型,一次算大批 token、但每个 token 分攤到的記憶體读取次數少很多。
这个瓶頸的转移有实际的经濟意涵。现代 GPU 的算力通常远比記憶體频寬充裕,自迴歸「一次一个 token」的生成方式,等於让昂貴的运算單元一直在等記憶體餵资料、长期處於半閒置狀態。
擴散式生成把工作量攤平成大批平行计算,反而能把 GPU 的算力吃好吃滿,对需要长时间、大批次产出的应用场景,这種「把硬體用好用滿」的特性,有时比單純的速度數字更实际。
这个差異在现代 GPU 上有直接的速度體现。Google 官方測試數字如下:在消费級的 Nvidia RTX 5090 上,DiffusionGemma 的输出速度约为每秒 700 个 token;在资料中心級的單張 Nvidia H100 AI 加速器上,可达每秒 1,000 个 token 以上。根據 Google 自評,这约是同尺寸標準自迴歸 Gemma 模型的 4 倍速度。
动区要強调,上述數字均来自 Google 官方測試,非第三方獨立验证。不同场景、不同生成长度下,实际倍率可能有落差。
速度背后的代价:品质在所有基準均落后
不过在所有已公布的公开基準測試中,DiffusionGemma 的分數均低於標準 Gemma 4。換句話说,4 倍的速度不是憑空得来的,它的代价是生成品质的系统性下滑。
这个取捨对不同使用情境有截然不同的含義。如果你在意每秒输出量,例如需要大規模批次處理、在边緣裝置上跑本地推論、或是对延遲有高度敏感的应用场景,DiffusionGemma 的速度優勢是真实的。如果你的任務对答案品质有较高要求,標準 Gemma 4 目前仍然更可靠。
对本地 AI 社群而言,这个模型代表的是一種取捨方向的具體化:在有限的本地硬體上,你願意用多少品质換多少速度?这个问題,现在有了一个可以直接跑实验的參照点。Apache 2.0 授權意味著任何开发者都可以基於它做微调与研究,擴散式语言生成的实际天花板,接下来要靠社群来測。