O CoinWorld News informa que o Google implantou a arquitetura de previsão de múltiplos tokens (MTP) nos dispositivos Pixel 9 e Pixel 10, acelerando diretamente o modelo Gemini Nano v3 integrado. A nova arquitetura, ao anexar cabeças de previsão de transformer leve à cauda do modelo principal congelado, aumenta a velocidade de inferência no dispositivo em mais de 50%, mantendo ao mesmo tempo o alinhamento de segurança e a qualidade de saída originais. Para evitar a sobrecarga de memória de execução repetida durante a geração autoregressiva com cálculos de rascunho, o Google projetou um mecanismo de cópia zero, reutilizando com sucesso as ativações de recursos já calculadas pelo modelo principal, melhorando significativamente a precisão da previsão de tokens candidatos. Na prática, essa arquitetura permite que o modelo preveja com sucesso em média quase 2 tokens adicionais por inferência, reduzindo a frequência com que o processador principal é acordado devido à verificação, economizando assim o consumo de energia do sistema.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 2
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
DewdropSapling
· 3h atrás
Essa arquitetura MTP do Google realmente tem algo, 50% de aumento de velocidade e economia de energia, a IA móvel vai mudar o jogo.
Ver originalResponder0
AirdropCartographer
· 3h atrás
O mecanismo de zero-cópia é bem engenhoso, reutiliza a ativação de características para evitar explosão de memória, os detalhes de engenharia estão no ponto.
Ver originalResponder0