Google open source Gemma 4 serie completa de modelos de decodificación MTP para especulación, con una aceleración máxima de 3 veces

robot
Generación de resúmenes en curso

Noticias de Coinjie.com, Google ha lanzado y abierto el código del borrador del modelo de predicción de múltiples tokens (MTP) de la serie Gemma 4.
Este modelo utiliza una arquitectura de decodificación especulativa, que puede acelerar la inferencia hasta 3 veces en comparación con el modelo principal manteniendo la precisión final de la validación, sin comprometer la calidad de la salida.
El esquema MTP aprovecha la potencia de cálculo ociosa para predecir múltiples tokens futuros con anticipación, y luego estos son verificados en paralelo por un modelo objetivo pesado.
Si el modelo objetivo aprueba el borrador, se recibe toda la secuencia de una sola vez.
El modelo de borrador comparte el estado de activación y la caché KV con el modelo objetivo, y para los modelos E2B y E4B, el equipo ha introducido técnicas de agrupamiento en la capa de embedding.
Actualmente, el modelo MTP ya está completamente de código abierto, soportando frameworks de inferencia principales como VLLM, SGLang y Ollama.
Esta optimización reduce significativamente la barrera de entrada, permitiendo a los desarrolladores ejecutar fluidamente modelos MOE de 26B y modelos densos de 31B en tarjetas gráficas de consumo comunes, y también soportar interacciones de IA en tiempo real en dispositivos móviles con menor consumo de energía.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado