Google lança o modelo de código aberto Gemma 4 12B, que pode ser executado localmente em um laptop de consumo com 16GB de RAM

Google anuncia oficialmente la familia Gemma 4 con un hueco en medio: un nuevo modelo de 12B parámetros que solo requiere 16GB de memoria para ejecutarse localmente en laptops de consumo, con puntuaciones oficiales que se acercan a casi el doble del tamaño del modelo MoE de 26B.
(Resumen previo: ¡Google lanza una nueva aplicación de IA Dreambeans! Convierte tu vida diaria en una "historia de dibujos animados" de edición limitada)
(Información adicional: ¡Google invierte fuertemente en IA! Alphabet amplía su financiamiento en acciones hasta 85 mil millones de dólares, con una inversión de 10 mil millones de dólares de Berkshire Hathaway)

El 3 de junio, Google lanzó Gemma 4 12B, un modelo que no requiere hardware costoso, como aceleradores de IA que cuestan alrededor de 20 mil dólares, sino que solo necesita que la computadora tenga 16GB de memoria de sistema (RAM) o memoria de tarjeta gráfica (VRAM) para ejecutarse localmente.

La brecha en la familia Gemma 4

En abril de este año, Google presentó por primera vez la familia Gemma 4 con cuatro modelos: E2B y E4B optimizados para dispositivos móviles, y 26B MoE y 31B Dense orientados a servidores. Es una línea de productos que cubre desde dispositivos ligeros en el borde hasta la nube pesada, pero dejó un hueco evidente en medio: la versión móvil es demasiado ligera, y las versiones superiores a 26B requieren hardware bastante avanzado, dejando pocas opciones para escenarios de laptops locales.

El modelo de 12B fue creado precisamente para llenar ese vacío.

Para aclarar, el 26B MoE es un "modelo de expertos híbridos", donde MoE significa: el modelo llama a ciertos expertos neuronales según sea necesario, sin activar todos los parámetros en cada inferencia. En términos simples, esta arquitectura permite que el modelo solo active un subconjunto durante el cálculo, y en la versión de 26B, cada token usa aproximadamente 4B de parámetros. Pero el costo es que: los 26 mil millones de parámetros aún deben cargarse en memoria de antemano para mantener la velocidad de enrutamiento y inferencia, por lo que el uso de memoria se acerca al de un modelo denso de tamaño similar.

Por otro lado, el modelo Dense de 31B es un "modelo denso", que utiliza todos los parámetros en cada inferencia, sin ahorro alguno. En otras palabras, cada respuesta se realiza con toda la potencia. En comparación, el Gemma 4 12B ocupa aproximadamente 8.1GB de memoria, aproximadamente la mitad de un modelo MoE de 26B.

Al mismo tiempo, la familia Gemma 4 adopta la licencia Apache 2.0, la cual permite uso comercial, modificación y redistribución, una licencia de código abierto que permite a los desarrolladores usarla directamente en sus productos sin necesidad de solicitar permisos caso por caso.

"Casi igual de potente"

Google afirma en su anuncio que el rendimiento de Gemma 4 12B en varias pruebas de referencia "es casi igual de potente", comparable a un modelo MoE de 26B que es el doble de grande. Las puntuaciones oficiales cubren indicadores como GPQA Diamond (razonamiento científico a nivel de posgrado), MMLU Pro (conocimiento en múltiples áreas), DocVQA (preguntas y respuestas visuales en documentos), entre otros, y los números realmente se acercan a la versión de 26B.

Sin embargo, hay algunos aspectos en estos números que merecen una evaluación cautelosa.

Primero, estas son puntuaciones oficiales autoevaluadas por Google, aún no reproducidas completamente por terceros independientes. Las puntuaciones de referencia son solo un punto de partida, no la meta final, y las diferencias en escenarios de aplicación real pueden ser mayores o menores que lo que muestran los puntajes. Segundo, que "puede correr con 16GB" es técnicamente cierto, pero en la práctica, el uso de memoria medido es de aproximadamente 8.1GB, lo cual deja poco espacio en una laptop cotidiana que también tiene abiertas navegador y software de procesamiento de textos, por lo que no todos podrán ejecutarlo sin problemas.

El Gemma 4 12B también es un modelo multimodal, que utiliza una arquitectura unificada sin codificador, lo que significa que el mismo modelo puede procesar directamente entradas de texto, imágenes, audio y video, sin necesidad de cargar componentes adicionales de codificación.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado