Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
IPO Access
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Centro de Património VIP
Aumento de património premium
Gestão de património privado
Alocação de ativos premium
Fundo Quant
Estratégias quant de topo
Staking
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem inteligente
Alavancagem sem liquidação
USD1 Juros por holding
20%
Sem bloqueio, negocie e saque
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind Lançou DiffusionGemma, que é um novo membro na família de código aberto Gemma 4.
Testes oficiais mostram que, na Nvidia RTX 5090, pode atingir cerca de 700 tokens por segundo, e na H100, ultrapassa 1.000 tokens por segundo, aproximadamente 4 vezes mais rápido que o modelo auto-regressivo de mesmo tamanho Gemma.
(Resumindo: Google lança Gemma 4, modelo de código aberto de 12B, que pode ser executado localmente em um portátil de 16GB)
(Complemento: Superando modelos do Google! Tether lança o AI médico "que roda no celular" QVAC MedPsy, quebrando a dependência da nuvem e resolvendo questões de privacidade)
Índice deste artigo
Alternar
Desta vez, o Google DeepMind introduziu um elemento atípico na família de código aberto Gemma 4.
A maioria dos modelos de linguagem gera texto de forma "auto-regressiva", ou seja, de esquerda para direita, decidindo uma palavra de cada vez, com a probabilidade da próxima palavra dependendo da anterior, completando uma saída sequencialmente.
A abordagem do DiffusionGemma é completamente oposta: ele primeiro preenche uma "tela" com símbolos de espaço reservado, depois realiza várias rodadas de "remoção de ruído" na mesma porção de conteúdo, e por fim, gera toda a sequência final de uma só vez.
Essa lógica é mais parecida com a geração de imagens pelo Stable Diffusion, e não com a geração de texto pelo GPT.
O Google afirma que essa arquitetura oferece vantagens de velocidade quantificáveis em hardware local, e a disponibiliza sob licença Apache 2.0 para desenvolvedores e pesquisadores.
Como é um modelo que gera texto fora de ordem
DiffusionGemma usa uma arquitetura de "especialistas mistos" (MoE).
A ideia do MoE é que o modelo possui uma grande quantidade de sub-redes "especialistas", mas a cada inferência apenas uma parte delas é ativada, ao invés de usar todos os parâmetros o tempo todo.
Em linguagem simples, embora o modelo seja grande, cada operação ativa apenas os especialistas necessários.
O total de parâmetros do DiffusionGemma é de 26 bilhões (26B), mas na inferência, apenas cerca de 3,8 bilhões (3.8B) são realmente utilizados.
Isso permite que ele rode na VRAM de 18GB de uma GPU de alta gama, especialmente após quantização.
O fluxo de geração merece uma análise mais detalhada.
Modelos auto-regressivos tradicionais funcionam como uma linha de produção linear: o primeiro token é gerado, só então o segundo começa a ser calculado, e assim por diante.
Já o DiffusionGemma primeiro preenche toda a área de saída com tokens de espaço reservado, depois realiza várias rodadas de remoção de ruído, onde todos os tokens são atualizados simultaneamente, ajustando suas estimativas até que toda a sequência convirja para a saída final.
Ele consegue processar até 256 tokens em paralelo por rodada.
Esse design tem implicações concretas para tarefas "não lineares".
O Google dá o exemplo de resolver um Sudoku: modelos auto-regressivos tradicionais têm desempenho mediano, pois preencher uma célula corretamente muitas vezes depende de outras células ainda não decididas, e o modelo só consegue avançar na sequência, sem voltar atrás.
O DiffusionGemma consegue continuamente revisar e ajustar toda a sequência de tokens, o que teoricamente é mais vantajoso em tarefas com dependências complexas.
Outros cenários de aplicação mencionados pelo Google incluem: edição inline, geração de sequências moleculares, e gráficos matemáticos.
De onde vem a vantagem de velocidade
Do ponto de vista de hardware, a velocidade de inferência de modelos auto-regressivos é limitada pela "largura de banda de memória".
Cada token gerado exige uma leitura do peso do modelo na memória, e a velocidade de transferência de dados é o gargalo.
Por outro lado, o gargalo dos modelos de difusão é diferente: eles são intensivos em "poder de cálculo", realizando cálculos em lotes de tokens, com cada token exigindo menos leituras de memória.
Essa mudança de gargalo tem implicações econômicas reais.
As GPUs modernas geralmente têm mais poder de cálculo do que largura de banda de memória.
Assim, a geração auto-regressiva, que gera um token de cada vez, faz com que unidades de cálculo caras fiquem ociosas, esperando que a memória carregue os dados.
A geração por difusão distribui o trabalho em muitas operações paralelas, aproveitando melhor o potencial da GPU.
Para aplicações que requerem longas execuções ou grandes lotes, essa "maximização do uso do hardware" é muitas vezes mais prática do que apenas olhar para os números de velocidade.
Na prática, essa diferença se reflete na velocidade real em GPUs modernas.
Testes do Google indicam que, na Nvidia RTX 5090 de consumo, o DiffusionGemma gera cerca de 700 tokens por segundo;
e na Nvidia H100 de data center, ultrapassa 1.000 tokens por segundo.
Segundo o Google, isso é aproximadamente 4 vezes mais rápido que o Gemma padrão de mesmo tamanho.
É importante notar que esses números vêm de testes oficiais do Google, não de verificações independentes.
Em diferentes cenários ou tamanhos de geração, a relação de velocidade pode variar.
O custo por trás da velocidade: qualidade inferior em todos os benchmarks
Porém, em todos os benchmarks públicos divulgados, o DiffusionGemma apresenta pontuações inferiores ao Gemma 4 padrão.
Ou seja, a velocidade 4 vezes maior tem um custo: uma queda sistemática na qualidade da geração.
Essa troca tem diferentes implicações dependendo do uso.
Se você valoriza a quantidade de saídas por segundo, por exemplo, para processamento em larga escala, execução em dispositivos edge, ou aplicações sensíveis a latência, a vantagem de velocidade do DiffusionGemma é real.
Por outro lado, se a qualidade das respostas é prioridade, o Gemma 4 padrão ainda é mais confiável.
Para a comunidade de IA local, esse modelo representa uma concretização de uma abordagem de trade-off:
até que ponto você está disposto a sacrificar qualidade para ganhar velocidade com hardware limitado?
Agora, há um ponto de referência para experimentos.
A licença Apache 2.0 permite que qualquer desenvolvedor ajuste e estude o modelo, e o limite real da geração de linguagem por difusão será definido pela comunidade.