Segundo a monitorização do Beating, a Google implementou a arquitetura de Previsão Multi-Token (MTP) nos dispositivos das séries Pixel 9 e Pixel 10, acelerando diretamente o modelo Gemini Nano v3 integrado. Ao anexar uma cabeça de previsão Transformer ligeira à cauda do modelo principal já congelado, a nova arquitetura mantém totalmente o alinhamento de segurança e a qualidade de saída originais, enquanto aumenta a velocidade de inferência no dispositivo em mais de 50%. A decodificação especulativa tradicional requer a execução de um modelo de rascunho independente para prever tokens candidatos, o que não só ocupa memória RAM extra no telemóvel, mas também limita a precisão da previsão, uma vez que o modelo independente não consegue aceder aos estados ocultos internos do modelo principal. A nova arquitetura, ao incorporar a cabeça MTP na cauda do modelo principal congelado, reutiliza com sucesso as ativações de características já calculadas pelo modelo principal, melhorando significativamente a precisão da previsão dos tokens candidatos. Para evitar a sobrecarga repetida de memória RAM durante a geração autorregressiva com cálculos de rascunho, a Google concebeu um mecanismo de cópia zero (zero-copy). Na abordagem tradicional, o modelo de rascunho precisa de manter uma cache de valores-chave (KV cache) independente ao gerar palavras candidatas, enquanto o mecanismo de cópia zero permite que a cabeça de previsão externa leia diretamente a cache existente do modelo principal através de atenção cruzada (Cross-Attention). Isto não só elimina a latência de inicialização da previsão de rascunho, como também poupa cerca de 130 MB de memória RAM no telemóvel. Em aplicações reais do Pixel, como resumos de notificações e revisão de texto, a arquitetura MTP permite que o modelo preveja em média quase mais 2 tokens por inferência bem-sucedida, reduzindo a frequência com que o processador principal é ativado por verificações, poupando assim energia do sistema. Em tarefas de geração de texto altamente estruturadas, como respostas inteligentes, a taxa de aceitação de tokens aumentou até 55%.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
1,65M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
352,97K Popularidade
#
IsraelStrikesIranBTCPlunges
65,02K Popularidade
#
PredictWorldCupShare20000U
128,96K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
602,33K Popularidade

Fixado

O Google Pixel implementa MTP de cópia zero, a inferência do Gemini Nano acelera mais de 50% e poupa memória.

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado