Google Pixel implementa MTP de copia cero, acelerando la inferencia de Gemini Nano en más de un 50% y ahorrando memoria.

robot
Generación de resúmenes en curso
Según el monitoreo de Dongcha Beating, Google ha implementado la arquitectura de predicción de múltiples tokens (MTP) en los dispositivos Pixel 9 y Pixel 10, acelerando directamente el modelo Gemini Nano v3 integrado. Al adjuntar un cabezal de predicción Transformer ligero al extremo del modelo principal congelado, la nueva arquitectura aumenta la velocidad de inferencia en el dispositivo en más del 50% mientras preserva completamente la alineación de seguridad original y la calidad de salida.
La decodificación especulativa tradicional requiere ejecutar un modelo borrador independiente para predecir tokens candidatos. Esto no solo ocupa memoria RAM adicional del teléfono, sino que, al no poder acceder a los estados ocultos internos del modelo principal, limita la precisión de la predicción. La nueva arquitectura, al incrustar el cabezal MTP en el extremo del modelo principal congelado, reutiliza con éxito las activaciones de características ya calculadas por el modelo principal, mejorando significativamente la precisión de predicción de los tokens candidatos.
Para evitar la sobrecarga repetitiva de memoria RAM durante la generación autorregresiva debido al cálculo del borrador, Google diseñó un mecanismo de copia cero. En el esquema tradicional, el modelo borrador necesita mantener una caché de clave-valor independiente al generar tokens candidatos, mientras que el mecanismo de copia cero permite que el cabezal de predicción externo lea directamente la caché existente del modelo principal a través de la atención cruzada. Esto no solo elimina la latencia de inicio de la predicción del borrador, sino que también ahorra aproximadamente 130 MB de memoria RAM en el teléfono.
En tareas reales de Pixel, como resúmenes de notificaciones y corrección de textos, la arquitectura MTP permite que el modelo prediga con éxito casi 2 tokens adicionales por inferencia, reduciendo la frecuencia con la que el procesador principal se activa debido a la verificación, ahorrando así consumo de energía del sistema. En tareas de generación de texto altamente estructurado, como respuestas inteligentes, la tasa de aceptación de tokens aumenta hasta un 55%.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios