Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

Google DeepMind Lançou DiffusionGemma, que é um novo membro na família de código aberto Gemma 4.
Testes oficiais mostram que, na Nvidia RTX 5090, pode atingir cerca de 700 tokens por segundo, e na H100, ultrapassa 1.000 tokens por segundo, aproximadamente 4 vezes mais rápido que o modelo auto-regressivo de mesmo tamanho Gemma.
(Resumindo: Google lança Gemma 4, modelo de código aberto de 12B, que pode ser executado localmente em um portátil de 16GB)
(Complemento: Superando modelos do Google! Tether lança o AI médico "que roda no celular" QVAC MedPsy, quebrando a dependência da nuvem e resolvendo questões de privacidade)

Índice deste artigo

Alternar

  • Como é um modelo que gera texto fora de ordem
  • De onde vem a vantagem de velocidade
  • O custo por trás da velocidade: qualidade inferior em todos os benchmarks

Desta vez, o Google DeepMind introduziu um elemento atípico na família de código aberto Gemma 4.
A maioria dos modelos de linguagem gera texto de forma "auto-regressiva", ou seja, de esquerda para direita, decidindo uma palavra de cada vez, com a probabilidade da próxima palavra dependendo da anterior, completando uma saída sequencialmente.

A abordagem do DiffusionGemma é completamente oposta: ele primeiro preenche uma "tela" com símbolos de espaço reservado, depois realiza várias rodadas de "remoção de ruído" na mesma porção de conteúdo, e por fim, gera toda a sequência final de uma só vez.
Essa lógica é mais parecida com a geração de imagens pelo Stable Diffusion, e não com a geração de texto pelo GPT.

O Google afirma que essa arquitetura oferece vantagens de velocidade quantificáveis em hardware local, e a disponibiliza sob licença Apache 2.0 para desenvolvedores e pesquisadores.

Como é um modelo que gera texto fora de ordem

DiffusionGemma usa uma arquitetura de "especialistas mistos" (MoE).

A ideia do MoE é que o modelo possui uma grande quantidade de sub-redes "especialistas", mas a cada inferência apenas uma parte delas é ativada, ao invés de usar todos os parâmetros o tempo todo.
Em linguagem simples, embora o modelo seja grande, cada operação ativa apenas os especialistas necessários.
O total de parâmetros do DiffusionGemma é de 26 bilhões (26B), mas na inferência, apenas cerca de 3,8 bilhões (3.8B) são realmente utilizados.
Isso permite que ele rode na VRAM de 18GB de uma GPU de alta gama, especialmente após quantização.

O fluxo de geração merece uma análise mais detalhada.
Modelos auto-regressivos tradicionais funcionam como uma linha de produção linear: o primeiro token é gerado, só então o segundo começa a ser calculado, e assim por diante.

Já o DiffusionGemma primeiro preenche toda a área de saída com tokens de espaço reservado, depois realiza várias rodadas de remoção de ruído, onde todos os tokens são atualizados simultaneamente, ajustando suas estimativas até que toda a sequência convirja para a saída final.
Ele consegue processar até 256 tokens em paralelo por rodada.

Esse design tem implicações concretas para tarefas "não lineares".
O Google dá o exemplo de resolver um Sudoku: modelos auto-regressivos tradicionais têm desempenho mediano, pois preencher uma célula corretamente muitas vezes depende de outras células ainda não decididas, e o modelo só consegue avançar na sequência, sem voltar atrás.
O DiffusionGemma consegue continuamente revisar e ajustar toda a sequência de tokens, o que teoricamente é mais vantajoso em tarefas com dependências complexas.

Outros cenários de aplicação mencionados pelo Google incluem: edição inline, geração de sequências moleculares, e gráficos matemáticos.

De onde vem a vantagem de velocidade

Do ponto de vista de hardware, a velocidade de inferência de modelos auto-regressivos é limitada pela "largura de banda de memória".
Cada token gerado exige uma leitura do peso do modelo na memória, e a velocidade de transferência de dados é o gargalo.
Por outro lado, o gargalo dos modelos de difusão é diferente: eles são intensivos em "poder de cálculo", realizando cálculos em lotes de tokens, com cada token exigindo menos leituras de memória.

Essa mudança de gargalo tem implicações econômicas reais.
As GPUs modernas geralmente têm mais poder de cálculo do que largura de banda de memória.
Assim, a geração auto-regressiva, que gera um token de cada vez, faz com que unidades de cálculo caras fiquem ociosas, esperando que a memória carregue os dados.

A geração por difusão distribui o trabalho em muitas operações paralelas, aproveitando melhor o potencial da GPU.
Para aplicações que requerem longas execuções ou grandes lotes, essa "maximização do uso do hardware" é muitas vezes mais prática do que apenas olhar para os números de velocidade.

Na prática, essa diferença se reflete na velocidade real em GPUs modernas.
Testes do Google indicam que, na Nvidia RTX 5090 de consumo, o DiffusionGemma gera cerca de 700 tokens por segundo;
e na Nvidia H100 de data center, ultrapassa 1.000 tokens por segundo.
Segundo o Google, isso é aproximadamente 4 vezes mais rápido que o Gemma padrão de mesmo tamanho.

É importante notar que esses números vêm de testes oficiais do Google, não de verificações independentes.
Em diferentes cenários ou tamanhos de geração, a relação de velocidade pode variar.

O custo por trás da velocidade: qualidade inferior em todos os benchmarks

Porém, em todos os benchmarks públicos divulgados, o DiffusionGemma apresenta pontuações inferiores ao Gemma 4 padrão.
Ou seja, a velocidade 4 vezes maior tem um custo: uma queda sistemática na qualidade da geração.

Essa troca tem diferentes implicações dependendo do uso.
Se você valoriza a quantidade de saídas por segundo, por exemplo, para processamento em larga escala, execução em dispositivos edge, ou aplicações sensíveis a latência, a vantagem de velocidade do DiffusionGemma é real.
Por outro lado, se a qualidade das respostas é prioridade, o Gemma 4 padrão ainda é mais confiável.

Para a comunidade de IA local, esse modelo representa uma concretização de uma abordagem de trade-off:
até que ponto você está disposto a sacrificar qualidade para ganhar velocidade com hardware limitado?
Agora, há um ponto de referência para experimentos.
A licença Apache 2.0 permite que qualquer desenvolvedor ajuste e estude o modelo, e o limite real da geração de linguagem por difusão será definido pela comunidade.

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado