Google lanza y open source el borrador del modelo de predicción de múltiples tokens (MTP) de la serie Gemma 4, que utiliza decodificación especulativa, logrando una aceleración de inferencia de hasta 3 veces sin comprometer la calidad de salida, manteniendo los pesos finales del modelo principal. MTP aprovecha la potencia de cálculo inactiva para predecir múltiples tokens futuros en paralelo, y los modelos objetivo pesados verifican en paralelo; si se aprueba el borrador, se acepta toda la secuencia de una sola vez y se comparte el estado de activación y la caché KV. Se introduce clustering en las capas de embedding E2B/E4B. MTP ya está completamente open source, soporta frameworks como VLLM, SGLang, Ollama, y puede ejecutar sin problemas modelos MOE de 26B y modelos densos de 31B en tarjetas gráficas de consumo, además de reducir el consumo de energía en IA en tiempo real en dispositivos móviles.

CoinNetwork

2026-05-06 00:37:51

Generación de resúmenes en curso

Noticias de Coinjie.com, Google ha lanzado y abierto el código del borrador del modelo de predicción de múltiples tokens (MTP) de la serie Gemma 4.
Este modelo utiliza una arquitectura de decodificación especulativa, que puede acelerar la inferencia hasta 3 veces en comparación con el modelo principal manteniendo la precisión final de la validación, sin comprometer la calidad de la salida.
El esquema MTP aprovecha la potencia de cálculo ociosa para predecir múltiples tokens futuros con anticipación, y luego estos son verificados en paralelo por un modelo objetivo pesado.
Si el modelo objetivo aprueba el borrador, se recibe toda la secuencia de una sola vez.
El modelo de borrador comparte el estado de activación y la caché KV con el modelo objetivo, y para los modelos E2B y E4B, el equipo ha introducido técnicas de agrupamiento en la capa de embedding.
Actualmente, el modelo MTP ya está completamente de código abierto, soportando frameworks de inferencia principales como VLLM, SGLang y Ollama.
Esta optimización reduce significativamente la barrera de entrada, permitiendo a los desarrolladores ejecutar fluidamente modelos MOE de 26B y modelos densos de 31B en tarjetas gráficas de consumo comunes, y también soportar interacciones de IA en tiempo real en dispositivos móviles con menor consumo de energía.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
357.68K Popularidad
#
BitcoinHoldsFirmAbove80K
94.28M Popularidad
#
CryptoMarketRecovery
110.51K Popularidad
#
IsraelStrikesIranBTCPlunges
43.21K Popularidad
#
AaveSuesToUnfreeze73MInETH
4.15K Popularidad

Anclado

Google open source Gemma 4 serie completa de modelos de decodificación MTP para especulación, con una aceleración máxima de 3 veces

Temas de actualidad

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Anclado