Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
IPO Access
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind 发布 DiffusionGemma,是 Gemma 4 开源家族的新成员。官方测试显示,在 Nvidia RTX 5090 上可达每秒约 700 个 token,在 H100 上可突破每秒 1,000 个 token,约是同尺寸自回归 Gemma 模型的 4 倍。
(前情提要:Google 推出 Gemma 4 12B 开源模型,16GB 消费型笔记本就能本地运行)
(背景补充:碾压 Google 模型!Tether 推出“手机可跑”的医疗 AI QVAC MedPsy,打破云端限制,解决隐私痛点)
本文目录
切换
这一次 Google DeepMind 在 Gemma 4 开源家族里放进了一个异类。大多数语言模型生成文字的方式是“自回归”,简单来说就是,由左到右、一次只决定一个字,前一个字决定后一个字的概率,循序完成一段输出。
DiffusionGemma 的做法完全相反:它先在一张“画布”上铺满占位符号,再反复多趟对整块内容进行“去噪”,最终一次输出整段定稿。这个逻辑更接近 Stable Diffusion 生成影像的方式,而不是 GPT 生成文字的方式。
Google 官方表示,这种架构在本地硬件上有可量化的速度优势,并以 Apache 2.0 授权开放给开发者与研究者使用。
不按顺序产字的模型长什么样
DiffusionGemma 采用“混合专家”(MoE)架构。
MoE 的概念是,模型内部有大量“专家”子网络,但每次推理只启用其中一部分,而不是每次都动员全部参数,白话说就是,虽然整个模型很大,但每次运算只调用必要的那几个专家。DiffusionGemma 的总参数量为 260 亿(26B),推理时实际启用的只有 38 亿(3.8B)。这让它能塞进高阶显卡的 18GB VRAM 内运行,量化后尤其如此。
生成流程更值得拆解。标准自回归模型是线性生产线:第 1 个 token 出来后,第 2 个才能开始计算,以此类推。
DiffusionGemma 则是在整块输出区域铺上占位 token,然后进行多趟去噪,每一趟都让所有位置的 token 同时更新、相互修正估计值,直到整块内容收敛为最终输出。一次最多可以并行处理 256 个 token。
这个设计对“非线性任务”有具体意义。Google 举的例子是解数独:传统自回归模型在这类任务上表现普通,因为正确填入某个格子往往依赖其他尚未决定的格子,但自回归只能依序往前走,无法回头。DiffusionGemma 能持续对整批 token 做自我修正,在逻辑依存关系错综复杂的任务上理论上更有利。
其他官方提及的适用场景包括:行内编辑(in-line editing)、分子序列生成、数学绘图。
速度优势从哪里来
从硬件角度看,自回归模型的推理速度受“内存带宽”制约,每输出一个 token 就要从内存读一次模型权重,内存搬资料的速度是瓶颈。扩散模型的瓶颈则不同,它是“算力”密集型,一次算大批 token、但每个 token 分摊到的内存读取次数少很多。
这个瓶颈的转移有实际的经济含义。现代 GPU 的算力通常远比内存带宽充裕,自回归“一次一个 token”的生成方式,等于让昂贵的运算单元一直在等内存喂资料、长期处于半闲置状态。
扩散式生成把工作量摊平成大批平行计算,反而能把 GPU 的算力吃好吃满,对需要长时间、大批次产出的应用场景,这种“把硬件用好用满”的特性,有时比单纯的速度数字更实际。
这个差异在现代 GPU 上有直接的速度体现。Google 官方测试数字如下:在消费级的 Nvidia RTX 5090 上,DiffusionGemma 的输出速度约为每秒 700 个 token;在数据中心级的单张 Nvidia H100 AI 加速器上,可达每秒 1,000 个 token 以上。根据 Google 自评,这约是同尺寸标准自回归 Gemma 模型的 4 倍速度。
强调一下,上述数字均来自 Google 官方测试,非第三方独立验证。不同场景、不同生成长度下,实际倍率可能有差异。
速度背后的代价:品质在所有基准均落后
不过在所有已公布的公开基准测试中,DiffusionGemma 的分数均低于标准 Gemma 4。换句话说,4 倍的速度不是凭空得来的,它的代价是生成品质的系统性下滑。
这个取舍对不同使用情境有截然不同的含义。如果你在意每秒输出量,例如需要大规模批次处理、在边缘设备上跑本地推理、或是对延迟有高度敏感的应用场景,DiffusionGemma 的速度优势是真实的。如果你的任务对答案品质有较高要求,标准 Gemma 4 目前仍然更可靠。
对本地 AI 社群而言,这个模型代表的是一种取舍方向的具体化:在有限的本地硬件上,你愿意用多少品质换多少速度?这个问题,现在有了一个可以直接跑实验的参照点。Apache 2.0 授权意味着任何开发者都可以基于它做微调与研究,扩散式语言生成的实际天花板,接下来要靠社区来测。