Google lanza Gemma 4 modelo de código abierto de 12 mil millones, se puede ejecutar localmente en una laptop de consumo de 16GB

Google lanza una brecha en la familia Gemma 4: un nuevo modelo de 12B parámetros que solo requiere 16GB de memoria para ejecutarse localmente en laptops de consumo, con puntuaciones oficiales que se acercan a casi el doble del tamaño del modelo MoE de 26B.
(Resumen previo: ¡Google lanza una nueva aplicación de IA Dreambeans! ¡Convierte tu vida diaria en una "historia de dibujos animados" de edición limitada!)
(Información adicional: ¡Google invierte fuertemente en IA! Alphabet amplía su financiamiento de acciones hasta 85 mil millones de dólares, con una inversión de 10 mil millones de dólares de Berkshire Hathaway)

El 3 de junio, Google lanzó Gemma 4 12B, un modelo que no requiere hardware costoso, como aceleradores de IA que cuestan alrededor de 20,000 dólares, sino que solo necesita que la computadora tenga 16GB de memoria del sistema (RAM) o memoria de la tarjeta gráfica (VRAM) para ejecutarse localmente.

La brecha en la familia Gemma 4

En abril de este año, Google presentó por primera vez la familia Gemma 4 con cuatro modelos: E2B y E4B optimizados para dispositivos móviles, y 26B MoE y 31B Dense orientados a servidores. Es una línea de productos que cubre desde dispositivos ligeros en el borde hasta la nube pesada, pero dejó un claro vacío en medio: la versión móvil es demasiado ligera, y las versiones superiores a 26B requieren hardware bastante avanzado, dejando casi sin opciones para escenarios en laptops locales.

El modelo de 12B fue creado precisamente para llenar ese vacío.

Para aclarar, el 26B MoE es un "modelo de expertos híbridos", donde MoE significa: el modelo llama a ciertos expertos neuronales según sea necesario, sin activar todos los parámetros en cada inferencia. En términos simples, esta arquitectura permite que el modelo solo active un subconjunto durante el cálculo, y en la versión de 26B, cada token usa aproximadamente 4B de los parámetros. Pero el costo es que: los 26 mil millones de parámetros aún deben cargarse en la memoria de antemano para mantener la velocidad de enrutamiento y inferencia, por lo que el uso de memoria se acerca al de un modelo denso de tamaño similar.

Por otro lado, 31B Dense es un "modelo denso", que utiliza todos los parámetros en cada inferencia, en una arquitectura tradicional. En otras palabras, no hay ahorro, cada respuesta se genera con toda la potencia. En comparación, el modelo Gemma 4 12B ocupa aproximadamente 8.1GB de memoria, aproximadamente la mitad de un modelo MoE de 26B.

Al mismo tiempo, la familia Gemma 4 adopta la licencia Apache 2.0, la misma que se usó este año, una licencia de código abierto que permite uso comercial, modificación y redistribución, permitiendo a los desarrolladores usarla directamente en sus productos sin necesidad de solicitar permisos caso por caso.

"Casi igual de potente"

Google afirma en su anuncio que el rendimiento de Gemma 4 12B en varias pruebas de referencia "es casi igual de potente", comparable a un modelo de 26B MoE que es el doble de grande. Las puntuaciones oficiales cubren indicadores como GPQA Diamond (razonamiento científico a nivel de posgrado), MMLU Pro (conocimiento en múltiples áreas), DocVQA (preguntas y respuestas visuales en documentos), entre otros, y los números realmente se acercan a la versión de 26B.

Sin embargo, hay algunos aspectos en estos números que merecen una evaluación cautelosa.

Primero, estas son puntuaciones oficiales autoevaluadas por Google, sin una reproducción completa por terceros independientes. Las puntuaciones de referencia son solo un punto de partida, no una meta definitiva, y las diferencias en escenarios de aplicación real pueden ser mayores o menores que lo que indican los puntajes. Segundo, que "puede correr con 16GB" es técnicamente cierto, pero en la práctica, el uso de memoria real es de aproximadamente 8.1GB, lo cual en una laptop cotidiana que también tiene abiertas navegador y software de procesamiento de textos, deja poco espacio restante, por lo que no todos podrán ejecutarlo sin problemas.

El modelo Gemma 4 12B también es un modelo multimodal, que utiliza una arquitectura unificada sin codificador, lo que significa que el mismo modelo puede procesar directamente entradas de texto, imágenes, audio y video, sin necesidad de componentes adicionales de codificación.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado