O Google open-source Gemma 4 toda a linha de modelos de decodificação MTP especulativa, com velocidade máxima 3 vezes superior

robot
Geração de resumo em curso

Notícias do CoinWorld, a Google lançou e open-soube o modelo preliminar de previsão de múltiplos tokens (MTP) da série Gemma 4.
Este modelo utiliza uma arquitetura de decodificação especulativa, capaz de acelerar a inferência até 3 vezes com base na preservação do peso de validação final do modelo principal, sem comprometer a qualidade da saída.
A solução MTP aproveita o poder de processamento ocioso para prever antecipadamente múltiplos tokens futuros, que são então verificados em paralelo por um modelo alvo pesado.
Se o modelo alvo concordar com o rascunho, ele aceita toda a sequência de uma só vez.
O modelo de rascunho compartilha o estado de ativação e o cache KV com o modelo alvo, e para os modelos E2B e E4B, a equipe introduziu técnicas de clustering na camada de embedding.
Atualmente, o modelo MTP está totalmente open-source, suportando frameworks de inferência populares como VLLM, SGLang e Ollama.
Essa otimização reduz significativamente a barreira de entrada, permitindo que desenvolvedores executem fluentemente modelos MOE de 26B e modelos densos de 31B em GPUs de consumo comum, além de suportar interações de IA em tempo real em dispositivos móveis com menor consumo de energia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar