Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 Ganhe juros holding
20%
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas extras
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind 发布 DiffusionGemma,是 Gemma 4 开源家族的新成员。官方测试显示,在 Nvidia RTX 5090 上可达每秒约 700 个 token,在 H100 上可突破每秒 1,000 个 token,约是同尺寸自回归 Gemma 模型的 4 倍。
(前情提要:Google 推出 Gemma 4 12B 开源模型,16GB 消费型笔记本就能本地运行)
(背景补充:碾压 Google 模型!Tether 推出“手机可跑”的医疗 AI QVAC MedPsy,打破云端隐私痛点)
本文目录
切换
这一次 Google DeepMind 在 Gemma 4 开源家族里放进了一个异类。大多数语言模型生成文字的方式是“自回归”,简单来说就是,由左到右、一次只决定一个字,前一个字决定后一个字的概率,循序完成一段输出。
DiffusionGemma 的做法完全相反:它先在一张“画布”上铺满占位符号,再反复多趟对整块内容进行“去噪”,最终一次输出整段定稿。这个逻辑更接近 Stable Diffusion 生成影像的方式,而不是 GPT 生成文字的方式。
Google 官方表示,这种架构在本地硬件上有可量化的速度优势,并以 Apache 2.0 授权开放给开发者与研究者使用。
不按顺序产字的模型长什么样
DiffusionGemma 采用“混合专家”(MoE)架构。
MoE 的概念是,模型内部有大量“专家”子网络,但每次推理只启用其中一部分,而不是每次都动员全部参数,白话说就是,虽然整个模型很大,但每次运算只调用必要的那几个专家。DiffusionGemma 的总参数量为 260 亿(26B),推理时实际启用的只有 38 亿(3.8B)。这让它能塞进高阶显卡的 18GB VRAM 内运行,量化后尤其如此。
生成流程更值得拆解。标准自回归模型是线性生产线:第 1 个 token 出来后,第 2 个才能开始计算,以此类推。
DiffusionGemma 则是在整块输出区域铺上占位 token,然后进行多趟去噪,每一趟都让所有位置的 token 同时更新、互相修正估计值,直到整块内容收敛为最终输出。一次最多可以并行处理 256 个 token。
这个设计对“非线性任务”有具体意义。Google 举的例子是解数独:传统自回归模型在这类任务上表现普通,因为正确填入某个格子往往依赖其他尚未决定的格子,但自回归只能依序往前走,无法回头。DiffusionGemma 能持续对整批 token 做自我修正,在逻辑依存关系错综复杂的任务上理论上更有利。
其他官方提及的适用场景包括:行内编辑(in-line editing)、分子序列生成、数学绘图。
速度优势从哪里来
从硬件角度看,自回归模型的推理速度受“内存带宽”制约,每输出一个 token 就要从内存读一次模型权重,内存搬资料的速度是瓶颈。扩散模型的瓶颈则不同,它是“算力”密集型,一次算大批 token、但每个 token 分摊到的内存读取次数少很多。
这个瓶颈的转移有实际的经济含义。现代 GPU 的算力通常远比内存带宽充裕,自回归“一次一个 token”的生成方式,等于让昂贵的运算单元一直在等内存喂资料、长期处于半闲置状态。
扩散式生成把工作量摊平成大批平行计算,反而能把 GPU 的算力吃好吃满,对需要长时间、大批次产出的应用场景,这种“把硬件用好用满”的特性,有时比单纯的速度数字更实际。
这个差异在现代 GPU 上有直接的速度体现。Google 官方测试数字如下:在消费级的 Nvidia RTX 5090 上,DiffusionGemma 的输出速度约为每秒 700 个 token;在数据中心级的单张 Nvidia H100 AI 加速器上,可达每秒 1,000 个 token 以上。根据 Google 自评,这约是同尺寸标准自回归 Gemma 模型的 4 倍速度。
强调一下,上述数字均来自 Google 官方测试,非第三方独立验证。不同场景、不同生成长度下,实际倍率可能有差异。
速度背后的代价:品质在所有基准均落后
不过在所有已公布的公开基准测试中,DiffusionGemma 的分数均低于标准 Gemma 4。换句话说,4 倍的速度不是凭空得来的,它的代价是生成品质的系统性下滑。
这个取舍对不同使用情境有截然不同的含义。如果你在意每秒输出量,例如需要大规模批次处理、在边缘设备上跑本地推理、或是对延迟有高度敏感的应用场景,DiffusionGemma 的速度优势是真实的。如果你的任务对答案品质有较高要求,标准 Gemma 4 目前仍然更可靠。
对本地 AI 社群而言,这个模型代表的是一种取舍方向的具体化:在有限的本地硬件上,你愿意用多少品质换多少速度?这个问题,现在有了一个可以直接跑实验的参照点。Apache 2.0 授权意味着任何开发者都可以基于它做微调与研究,扩散式语言生成的实际天花板,接下来要靠社群来测。