Notícias da Coin World: O Google implementou a arquitetura de previsão multi-token (MTP) nos dispositivos das séries Pixel 9 e Pixel 10, acelerando diretamente o modelo Gemini Nano v3 integrado. A nova arquitetura, ao anexar uma cabeça de previsão transformer leve na cauda do modelo principal já congelado, aumentou a velocidade de inferência no dispositivo em mais de 50%, mantendo o alinhamento de segurança e a qualidade de saída originais. Para evitar a sobrecarga de memória de execução repetida causada pelo cálculo de rascunho durante a geração autoregressiva, o Google projetou um mecanismo de cópia zero, reutilizando com sucesso as ativações de características já calculadas pelo modelo principal, melhorando significativamente a precisão da previsão dos tokens candidatos. Esta arquitetura, na prática, permite que o modelo preveja com sucesso, em média, quase 2 tokens adicionais por inferência, reduzindo a frequência com que o processador principal é acordado para verificação, economizando assim o consumo de energia do sistema.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 2
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
DewdropSapling
· 2h atrás
A arquitetura MTP do Google realmente tem algo especial: 50% de aumento de velocidade e ainda poupa energia. A IA móvel vai mudar drasticamente.
Ver originalResponder0
AirdropCartographer
· 2h atrás
O mecanismo de zero-cópia é bastante engenhoso, reutiliza ativações de características para evitar explosão de memória, os detalhes de engenharia são precisos.
Ver originalResponder0
  • Fixado