Google DeepMind abre la familia de modelos multimodales Gemma 4 de código abierto

robot
Generación de resúmenes en curso

Noticias de ME News, 3 de abril (UTC+8), Google DeepMind ha abierto recientemente el código de la familia de modelos multimodales Gemma 4. Esta serie de modelos soporta entradas de texto e imagen (los modelos pequeños también soportan audio), genera salidas de texto, incluye variantes preentrenadas y ajustadas por instrucciones, con una ventana de contexto de hasta 256K tokens, y soporta más de 140 idiomas. Los modelos utilizan arquitecturas densas (Dense) y de expertos híbridos (MoE), con cuatro tamaños: E2B, E4B, 26B A4B y 31B. Sus capacidades principales incluyen inferencia de alto rendimiento, procesamiento multimodal escalable, optimización en dispositivos, ampliación de la ventana de contexto, mejora en codificación y capacidades de agentes inteligentes, además de soporte nativo para indicaciones del sistema. En detalles técnicos, los modelos emplean mecanismos de atención híbridos, con capas globales que usan pares clave-valor unificados y RoPE (p-RoPE) con proporciones. Entre ellos, los modelos E2B y E4B utilizan tecnología de incrustación por capas (PLE), con parámetros efectivos menores que el total. Mientras que el modelo MoE de 26B A4B activa solo 3.8B de parámetros durante la inferencia, alcanzando una velocidad de ejecución cercana a la de un modelo de 4B parámetros. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado