Mensaje de CoinWorld, Google ha implementado la arquitectura de predicción de múltiples tokens (MTP) en los dispositivos de las series Pixel 9 y Pixel 10, acelerando directamente el modelo Gemini Nano v3 integrado. La nueva arquitectura añade cabezales de predicción de transformador ligero al final del modelo principal congelado, aumentando la velocidad de inferencia en el dispositivo en más del 50%, mientras conserva la alineación de seguridad y la calidad de salida originales. Para evitar la sobrecarga de memoria de ejecución repetida causada por el cálculo de borrador durante la generación autorregresiva, Google diseñó un mecanismo de copia cero, reutilizando con éxito las activaciones de características ya calculadas del modelo principal, mejorando significativamente la precisión de predicción de los tokens candidatos. Esta arquitectura permite que, en aplicaciones reales, el modelo prediga con éxito en promedio casi 2 tokens adicionales por inferencia única, reduciendo la frecuencia con la que el procesador principal se despierta para verificación, ahorrando así energía del sistema.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 2
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
DewdropSapling
· hace2h
La arquitectura MTP de Google realmente tiene algo, un 50% de aumento de velocidad y ahorro de energía, la IA móvil va a cambiar el mundo.
Ver originalResponder0
AirdropCartographer
· hace2h
El mecanismo de copia cero está bien diseñado, reutiliza la activación de características para evitar la explosión de memoria, los detalles de ingeniería están en su lugar.
Ver originalResponder0