La noticia de CoinWorld, Google ha lanzado y abierto el código del borrador del modelo de predicción de múltiples tokens (MTP) de la serie Gemma 4. Este es un modelo auxiliar liviano que utiliza una arquitectura de decodificación especulativa, capaz de acelerar la inferencia hasta 3 veces en comparación con el modelo principal, sin perder calidad de salida ni capacidad de razonamiento lógico. Este modelo ha sido completamente abierto bajo la misma licencia Apache 2.0 que Gemma 4, y soporta de forma nativa frameworks de inferencia como vllm, sglang y ollama. Esta optimización de velocidad reduce significativamente la barrera de entrada, permitiendo a los desarrolladores ejecutar sin problemas modelos 26b moe y 31b densos en tarjetas gráficas de consumo comunes, y también soportar interacciones de IA en tiempo real en dispositivos móviles con menor consumo de energía.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado