Google Pixel implementa MTP de cópia zero, Gemini Nano acelera inferência em mais de 50% e economiza memória.

robot
Geração do resumo em andamento

Segundo o monitoramento do "Dongcha Beating", a Google implementou a arquitetura de Previsão de Múltiplos Tokens (MTP) nos dispositivos das séries Pixel 9 e Pixel 10, acelerando diretamente o modelo Gemini Nano v3 integrado. Ao anexar uma cabeça de predição Transformer leve ao final do modelo principal congelado, a nova arquitetura, mantendo totalmente o alinhamento de segurança original e a qualidade de saída, aumentou a velocidade de inferência no dispositivo em mais de 50%.

A decodificação especulativa tradicional requer a execução de um modelo de rascunho independente para prever tokens candidatos. Isso não apenas consome memória RAM do telefone adicionalmente, mas também, como o modelo independente não pode acessar os estados ocultos internos do modelo principal, a precisão da previsão é limitada. A nova arquitetura, ao incorporar a cabeça MTP no final do modelo principal congelado, reutiliza com sucesso as ativações de características já calculadas pelo modelo principal, melhorando significativamente a precisão da previsão dos tokens candidatos.

Para evitar a sobrecarga duplicada de memória RAM causada pelo cálculo do rascunho durante a geração autorregressiva, a Google projetou um mecanismo de cópia zero (zero-copy). No esquema tradicional, o modelo de rascunho precisa manter uma memória de cache de chave-valor (KV cache) independente ao gerar palavras candidatas. Já o mecanismo de cópia zero permite que a cabeça de predição externa leia diretamente o cache existente do modelo principal por meio de atenção cruzada (Cross-Attention). Isso não apenas elimina a latência de inicialização da previsão do rascunho, mas também economiza cerca de 130 MB de espaço de memória RAM no telefone.

Em casos de uso reais do Pixel, como resumo de notificações e correção de texto, a arquitetura MTP permite que o modelo, em média, preveja com sucesso quase 2 tokens extras por inferência, reduzindo a frequência com que o processador principal é acordado para verificação, economizando assim o consumo de energia do sistema. Em tarefas de geração de texto altamente estruturadas, como respostas inteligentes, a taxa de aceitação de tokens aumentou em até 55%.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários