Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

Google DeepMind lanza DiffusionGemma, que es un nuevo miembro en la familia de código abierto Gemma 4.
Las pruebas oficiales muestran que en Nvidia RTX 5090 puede alcanzar aproximadamente 700 tokens por segundo, en H100 supera los 1,000 tokens por segundo, aproximadamente 4 veces la velocidad de un modelo Gemma autoregresivo del mismo tamaño.
(Resumen previo: Google lanza Gemma 4, un modelo de código abierto de 12B, que puede ejecutarse localmente en una laptop de consumo con 16GB de RAM)
(Información adicional: ¡Superando a Google! Tether lanza QVAC MedPsy, una IA médica "que puede correr en teléfonos móviles", rompiendo con la dependencia de la nube y los problemas de privacidad)

Índice de este artículo

Alternar

  • Cómo es un modelo que no genera en orden secuencial
  • De dónde proviene la ventaja de velocidad
  • El costo detrás de la velocidad: la calidad se queda atrás en todos los benchmarks

En esta ocasión, Google DeepMind ha incluido un elemento atípico en la familia de código abierto Gemma 4. La mayoría de los modelos de lenguaje generan texto de forma "autoregresiva", en términos simples, de izquierda a derecha, decidiendo una palabra a la vez, donde la probabilidad de la siguiente palabra depende de la anterior, completando secuencialmente una salida.

El método de DiffusionGemma es completamente opuesto: primero llena toda una "lona" con símbolos de marcador de posición, y luego realiza múltiples pasadas de "desruido" en toda esa área, para finalmente producir una versión definitiva en una sola pasada. Esta lógica se asemeja más a cómo genera imágenes Stable Diffusion, en lugar de cómo GPT genera texto.

Google afirma que esta arquitectura tiene ventajas cuantificables en velocidad en hardware local, y la ha puesto a disposición de desarrolladores e investigadores bajo la licencia Apache 2.0.

Cómo es un modelo que no genera en orden secuencial

DiffusionGemma utiliza una arquitectura de "expertos híbridos" (MoE).

El concepto de MoE es que dentro del modelo hay muchas subredes de "expertos", pero en cada inferencia solo se activa una parte de ellas, en lugar de usar todos los parámetros en cada paso. En términos coloquiales, aunque el modelo completo es muy grande, en cada cálculo solo se llaman los expertos necesarios. La cantidad total de parámetros de DiffusionGemma es de 26 mil millones (26B), pero en inferencia solo se activan aproximadamente 3.8 mil millones (3.8B). Esto permite que funcione en tarjetas gráficas de gama alta con 18GB de VRAM, especialmente cuando se cuantifica.

El proceso de generación merece un análisis más profundo. Los modelos autoregresivos estándar son como una línea de producción lineal: después de generar el primer token, solo entonces se calcula el segundo, y así sucesivamente.

En cambio, DiffusionGemma primero llena toda la región de salida con tokens de marcador de posición, y luego realiza varias pasadas de desruido, en cada una de las cuales todos los tokens en todas las posiciones se actualizan simultáneamente, corrigiendo mutuamente sus estimaciones, hasta que toda la sección converge en la salida final. Puede procesar hasta 256 tokens en paralelo en una sola pasada.

Este diseño tiene un significado concreto para tareas "no lineales". Un ejemplo que da Google es el Sudoku: los modelos autoregresivos tradicionales tienen un rendimiento mediocre en estas tareas, porque rellenar correctamente una celda a menudo depende de otras celdas aún no decididas, y el autoregresivo solo puede avanzar en orden, sin volver atrás. DiffusionGemma puede seguir corrigiendo en tiempo real toda la tanda de tokens, lo que teóricamente es más ventajoso en tareas con relaciones de dependencia complejas.

Otros escenarios mencionados por Google incluyen: edición en línea, generación de secuencias moleculares y gráficos matemáticos.

De dónde proviene la ventaja de velocidad

Desde el punto de vista del hardware, la velocidad de inferencia de modelos autoregresivos está limitada por el "ancho de banda de memoria", ya que por cada token que se genera hay que leer los pesos del modelo desde la memoria, y la velocidad de transferencia de datos es el cuello de botella. En cambio, los modelos de difusión tienen un cuello de botella diferente: son intensivos en "potencia de cálculo", generando muchos tokens en una sola pasada, pero cada token requiere mucho menos acceso a memoria.

Este cambio de cuello de botella tiene implicaciones económicas reales. La potencia de cálculo en GPUs modernas suele ser mucho mayor que su ancho de banda de memoria. La generación autoregresiva "uno a uno" hace que las unidades de cálculo costosas estén esperando constantemente a que la memoria les suministre datos, permaneciendo en un estado de semi-inactividad a largo plazo.

La generación por difusión distribuye la carga de trabajo en muchas operaciones paralelas, aprovechando mejor la potencia de la GPU. Para aplicaciones que requieren largas ejecuciones y grandes lotes, esta característica de "maximizar el uso del hardware" puede ser más práctica que simplemente medir la velocidad en números.

Esta diferencia se refleja directamente en la velocidad en GPUs modernas. Las cifras de Google son las siguientes: en una Nvidia RTX 5090 de consumo, DiffusionGemma alcanza aproximadamente 700 tokens por segundo; en una Nvidia H100 de centro de datos, supera los 1,000 tokens por segundo. Según la autoevaluación de Google, esto es aproximadamente 4 veces más rápido que un modelo Gemma estándar autoregresivo del mismo tamaño.

Es importante destacar que estas cifras provienen de pruebas oficiales de Google, no de verificaciones independientes. La velocidad real puede variar según el escenario y la longitud de la generación.

El costo detrás de la velocidad: la calidad se queda atrás en todos los benchmarks

Sin embargo, en todos los benchmarks públicos publicados, DiffusionGemma obtiene puntuaciones inferiores a Gemma 4 estándar. En otras palabras, esa velocidad 4 veces mayor no se obtiene sin costo: la calidad de generación disminuye sistemáticamente.

Este compromiso tiene diferentes implicaciones según el uso. Si te importa la cantidad de salida por segundo, por ejemplo, para procesamiento en lotes a gran escala, inferencia local en dispositivos edge, o aplicaciones con alta sensibilidad a la latencia, la ventaja de velocidad de DiffusionGemma es real. Pero si tu tarea requiere alta precisión en las respuestas, actualmente Gemma 4 sigue siendo más confiable.

Para la comunidad de IA local, este modelo representa una concreción de un enfoque de compromiso: ¿cuánta calidad estás dispuesto a sacrificar para obtener más velocidad en hardware limitado? Ahora hay un punto de referencia para experimentar directamente. La licencia Apache 2.0 permite a cualquier desarrollador hacer ajustes y estudios basados en él. El límite práctico de generación de lenguaje con difusión dependerá del esfuerzo de la comunidad en probar y mejorar.

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado