O Google lançou e open-soube o rascunho do modelo Gemma 4 da série de previsão de múltiplos tokens (MTP), usando decodificação especulativa, alcançando até 3 vezes mais velocidade de inferência sem comprometer a qualidade da saída, mantendo os pesos finais do modelo principal. O MTP utiliza poder de processamento ocioso para prever antecipadamente múltiplos tokens futuros, em múltiplos caminhos, e verifica-os em paralelo com um modelo de objetivo pesado; Se o rascunho for aprovado, toda a sequência é aceita de uma só vez, compartilhando o estado de ativação e o cache KV. Introduz clustering na camada de incorporação E2B/E4B. O MTP foi totalmente open-source, suportando frameworks como VLLM, SGLang, Ollama, entre outros, podendo rodar fluentemente em GPUs de consumo com modelos MOE de 26B e densos de 31B, além de reduzir o consumo de energia de IA em tempo real em dispositivos móveis.

CoinNetwork

2026-05-06 00:37:51

Geração de resumo em curso

Notícias do CoinWorld, a Google lançou e open-soube o modelo preliminar de previsão de múltiplos tokens (MTP) da série Gemma 4.
Este modelo utiliza uma arquitetura de decodificação especulativa, capaz de acelerar a inferência até 3 vezes com base na preservação do peso de validação final do modelo principal, sem comprometer a qualidade da saída.
A solução MTP aproveita o poder de processamento ocioso para prever antecipadamente múltiplos tokens futuros, que são então verificados em paralelo por um modelo alvo pesado.
Se o modelo alvo concordar com o rascunho, ele aceita toda a sequência de uma só vez.
O modelo de rascunho compartilha o estado de ativação e o cache KV com o modelo alvo, e para os modelos E2B e E4B, a equipe introduziu técnicas de clustering na camada de embedding.
Atualmente, o modelo MTP está totalmente open-source, suportando frameworks de inferência populares como VLLM, SGLang e Ollama.
Essa otimização reduz significativamente a barreira de entrada, permitindo que desenvolvedores executem fluentemente modelos MOE de 26B e modelos densos de 31B em GPUs de consumo comum, além de suportar interações de IA em tempo real em dispositivos móveis com menor consumo de energia.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
357.68K Popularidade
#
BitcoinHoldsFirmAbove80K
94.28M Popularidade
#
CryptoMarketRecovery
110.51K Popularidade
#
IsraelStrikesIranBTCPlunges
43.21K Popularidade
#
AaveSuesToUnfreeze73MInETH
4.15K Popularidade

Fixar

O Google open-source Gemma 4 toda a linha de modelos de decodificação MTP especulativa, com velocidade máxima 3 vezes superior

Tópicos em destaque

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Fixar