Velocidade máxima até 3 vezes maior e sem perdas, modelo de decodificação especulativa MTP de toda a linha Gemma4 de código aberto do Google

De acordo com a monitorização do Beating, o Google lançou e open-soube um rascunho do modelo de previsão de múltiplos tokens (MTP) da série Gemma 4. Este é um modelo auxiliar leve que utiliza uma arquitetura de decodificação especulativa, capaz de acelerar a inferência até 3 vezes, mantendo a qualidade de saída e a capacidade de raciocínio lógico, enquanto o modelo principal mantém o peso de validação final.

Modelos de linguagem grande padrão geram apenas um token por vez, sendo facilmente limitados pelo gargalo de largura de banda da memória de vídeo, o que causa ociosidade computacional. A solução MTP permite que o modelo de rascunho leve utilize a capacidade ociosa de cálculo para prever antecipadamente múltiplos tokens futuros de uma só vez, que são então validados em paralelo pelo modelo alvo pesado, como o de 31B. Se o modelo alvo concordar com o rascunho, ele receberá toda a sequência de uma só vez. Para aumentar ainda mais a eficiência, o modelo de rascunho compartilha diretamente o estado de ativação e o cache KV do modelo alvo (que armazena o contexto histórico para evitar cálculos repetidos); para os modelos E2B e E4B na ponta, a equipe também introduziu técnicas de agrupamento na camada de embedding.

Atualmente, o modelo MTP foi totalmente open-soube sob a mesma licença Apache 2.0 do Gemma 4, e suporta nativamente frameworks de inferência populares como vLLM, SGLang e Ollama. Essa otimização de velocidade reduz significativamente a barreira de entrada, permitindo que desenvolvedores executem fluentemente modelos de 26B MoE e 31B densos em GPUs de consumo comum, além de suportar interações de IA em tempo real em dispositivos móveis com menor consumo de energia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar