O Google Pixel implementa MTP de cópia zero, a inferência do Gemini Nano acelera mais de 50% e poupa memória.

robot
Geração de resumo em curso
Segundo a monitorização do Beating, a Google implementou a arquitetura de Previsão Multi-Token (MTP) nos dispositivos das séries Pixel 9 e Pixel 10, acelerando diretamente o modelo Gemini Nano v3 integrado. Ao anexar uma cabeça de previsão Transformer ligeira à cauda do modelo principal já congelado, a nova arquitetura mantém totalmente o alinhamento de segurança e a qualidade de saída originais, enquanto aumenta a velocidade de inferência no dispositivo em mais de 50%. A decodificação especulativa tradicional requer a execução de um modelo de rascunho independente para prever tokens candidatos, o que não só ocupa memória RAM extra no telemóvel, mas também limita a precisão da previsão, uma vez que o modelo independente não consegue aceder aos estados ocultos internos do modelo principal. A nova arquitetura, ao incorporar a cabeça MTP na cauda do modelo principal congelado, reutiliza com sucesso as ativações de características já calculadas pelo modelo principal, melhorando significativamente a precisão da previsão dos tokens candidatos. Para evitar a sobrecarga repetida de memória RAM durante a geração autorregressiva com cálculos de rascunho, a Google concebeu um mecanismo de cópia zero (zero-copy). Na abordagem tradicional, o modelo de rascunho precisa de manter uma cache de valores-chave (KV cache) independente ao gerar palavras candidatas, enquanto o mecanismo de cópia zero permite que a cabeça de previsão externa leia diretamente a cache existente do modelo principal através de atenção cruzada (Cross-Attention). Isto não só elimina a latência de inicialização da previsão de rascunho, como também poupa cerca de 130 MB de memória RAM no telemóvel. Em aplicações reais do Pixel, como resumos de notificações e revisão de texto, a arquitetura MTP permite que o modelo preveja em média quase mais 2 tokens por inferência bem-sucedida, reduzindo a frequência com que o processador principal é ativado por verificações, poupando assim energia do sistema. Em tarefas de geração de texto altamente estruturadas, como respostas inteligentes, a taxa de aceitação de tokens aumentou até 55%.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado