Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
IPO Access
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
USD1 Gana por holdear
20%
Sin bloqueo, opera y retira
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind lanza DiffusionGemma, que es un nuevo miembro en la familia de código abierto Gemma 4.
Las pruebas oficiales muestran que en Nvidia RTX 5090 puede alcanzar aproximadamente 700 tokens por segundo, en H100 supera los 1,000 tokens por segundo, aproximadamente 4 veces la velocidad de un modelo Gemma autoregresivo del mismo tamaño.
(Resumen previo: Google lanza Gemma 4, un modelo de código abierto de 12B, que puede ejecutarse localmente en una laptop de consumo con 16GB de RAM)
(Información adicional: ¡Superando a Google! Tether lanza QVAC MedPsy, una IA médica "que puede correr en teléfonos móviles", rompiendo con la dependencia de la nube y los problemas de privacidad)
Índice de este artículo
Alternar
En esta ocasión, Google DeepMind ha incluido un elemento atípico en la familia de código abierto Gemma 4. La mayoría de los modelos de lenguaje generan texto de forma "autoregresiva", en términos simples, de izquierda a derecha, decidiendo una palabra a la vez, donde la probabilidad de la siguiente palabra depende de la anterior, completando secuencialmente una salida.
El método de DiffusionGemma es completamente opuesto: primero llena toda una "lona" con símbolos de marcador de posición, y luego realiza múltiples pasadas de "desruido" en toda esa área, para finalmente producir una versión definitiva en una sola pasada. Esta lógica se asemeja más a cómo genera imágenes Stable Diffusion, en lugar de cómo GPT genera texto.
Google afirma que esta arquitectura tiene ventajas cuantificables en velocidad en hardware local, y la ha puesto a disposición de desarrolladores e investigadores bajo la licencia Apache 2.0.
Cómo es un modelo que no genera en orden secuencial
DiffusionGemma utiliza una arquitectura de "expertos híbridos" (MoE).
El concepto de MoE es que dentro del modelo hay muchas subredes de "expertos", pero en cada inferencia solo se activa una parte de ellas, en lugar de usar todos los parámetros en cada paso. En términos coloquiales, aunque el modelo completo es muy grande, en cada cálculo solo se llaman los expertos necesarios. La cantidad total de parámetros de DiffusionGemma es de 26 mil millones (26B), pero en inferencia solo se activan aproximadamente 3.8 mil millones (3.8B). Esto permite que funcione en tarjetas gráficas de gama alta con 18GB de VRAM, especialmente cuando se cuantifica.
El proceso de generación merece un análisis más profundo. Los modelos autoregresivos estándar son como una línea de producción lineal: después de generar el primer token, solo entonces se calcula el segundo, y así sucesivamente.
En cambio, DiffusionGemma primero llena toda la región de salida con tokens de marcador de posición, y luego realiza varias pasadas de desruido, en cada una de las cuales todos los tokens en todas las posiciones se actualizan simultáneamente, corrigiendo mutuamente sus estimaciones, hasta que toda la sección converge en la salida final. Puede procesar hasta 256 tokens en paralelo en una sola pasada.
Este diseño tiene un significado concreto para tareas "no lineales". Un ejemplo que da Google es el Sudoku: los modelos autoregresivos tradicionales tienen un rendimiento mediocre en estas tareas, porque rellenar correctamente una celda a menudo depende de otras celdas aún no decididas, y el autoregresivo solo puede avanzar en orden, sin volver atrás. DiffusionGemma puede seguir corrigiendo en tiempo real toda la tanda de tokens, lo que teóricamente es más ventajoso en tareas con relaciones de dependencia complejas.
Otros escenarios mencionados por Google incluyen: edición en línea, generación de secuencias moleculares y gráficos matemáticos.
De dónde proviene la ventaja de velocidad
Desde el punto de vista del hardware, la velocidad de inferencia de modelos autoregresivos está limitada por el "ancho de banda de memoria", ya que por cada token que se genera hay que leer los pesos del modelo desde la memoria, y la velocidad de transferencia de datos es el cuello de botella. En cambio, los modelos de difusión tienen un cuello de botella diferente: son intensivos en "potencia de cálculo", generando muchos tokens en una sola pasada, pero cada token requiere mucho menos acceso a memoria.
Este cambio de cuello de botella tiene implicaciones económicas reales. La potencia de cálculo en GPUs modernas suele ser mucho mayor que su ancho de banda de memoria. La generación autoregresiva "uno a uno" hace que las unidades de cálculo costosas estén esperando constantemente a que la memoria les suministre datos, permaneciendo en un estado de semi-inactividad a largo plazo.
La generación por difusión distribuye la carga de trabajo en muchas operaciones paralelas, aprovechando mejor la potencia de la GPU. Para aplicaciones que requieren largas ejecuciones y grandes lotes, esta característica de "maximizar el uso del hardware" puede ser más práctica que simplemente medir la velocidad en números.
Esta diferencia se refleja directamente en la velocidad en GPUs modernas. Las cifras de Google son las siguientes: en una Nvidia RTX 5090 de consumo, DiffusionGemma alcanza aproximadamente 700 tokens por segundo; en una Nvidia H100 de centro de datos, supera los 1,000 tokens por segundo. Según la autoevaluación de Google, esto es aproximadamente 4 veces más rápido que un modelo Gemma estándar autoregresivo del mismo tamaño.
Es importante destacar que estas cifras provienen de pruebas oficiales de Google, no de verificaciones independientes. La velocidad real puede variar según el escenario y la longitud de la generación.
El costo detrás de la velocidad: la calidad se queda atrás en todos los benchmarks
Sin embargo, en todos los benchmarks públicos publicados, DiffusionGemma obtiene puntuaciones inferiores a Gemma 4 estándar. En otras palabras, esa velocidad 4 veces mayor no se obtiene sin costo: la calidad de generación disminuye sistemáticamente.
Este compromiso tiene diferentes implicaciones según el uso. Si te importa la cantidad de salida por segundo, por ejemplo, para procesamiento en lotes a gran escala, inferencia local en dispositivos edge, o aplicaciones con alta sensibilidad a la latencia, la ventaja de velocidad de DiffusionGemma es real. Pero si tu tarea requiere alta precisión en las respuestas, actualmente Gemma 4 sigue siendo más confiable.
Para la comunidad de IA local, este modelo representa una concreción de un enfoque de compromiso: ¿cuánta calidad estás dispuesto a sacrificar para obtener más velocidad en hardware limitado? Ahora hay un punto de referencia para experimentar directamente. La licencia Apache 2.0 permite a cualquier desarrollador hacer ajustes y estudios basados en él. El límite práctico de generación de lenguaje con difusión dependerá del esfuerzo de la comunidad en probar y mejorar.