Gemma 4 finalmente es estable en llama.cpp


El 2 de abril, Google lanzó Gemma 4, y en el primer día, la compatibilidad con llama.cpp estuvo disponible pero con muchos errores. Ahora todos los problemas están solucionados
E2B, E4B, 26B MoE, 31B Denso
El 31B ocupa el tercer lugar en la clasificación de Arena AI, el 26B ocupa el sexto
El nivel más fuerte de modelos de código abierto
Utilice --chat-template-file para cargar plantillas entrelazadas
Se recomienda habilitar --cache-ram 2048
La longitud del contexto depende de la VRAM
El año pasado, el mejor modelo local era la versión cuantizada de Llama 3.1 70B, apenas usable
Ahora, Gemma 4 31B Q5 funciona sin problemas en Mac Studio, acercándose al nivel de GPT-4
Las aplicaciones de IA que no dependen de APIs están comenzando a tener viabilidad comercial. Los datos permanecen en la máquina local, sin costo, con una latencia extremadamente baja
Para un negocio de una sola persona, los modelos locales son la infraestructura real. Mientras los competidores pagan tarifas por API, tu costo marginal es solo electricidad
Gemma 4 + llama.cpp = la solución óptima para inferencia local, lista para producción
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado