GLM-5.1 Serie de modelos REAP lanzada, ofrece varias variantes de cuantificación y poda

robot
Generación de resúmenes en curso
ME News Noticias, 22 de abril (UTC+8), recientemente, basado en el modelo BF16 de 7440 millones de parámetros GLM-5.1, se lanzaron los modelos de la serie GLM-5.1 REAP.
La serie se genera mediante poda REAP y varias técnicas de cuantización, con el objetivo de adaptarse a diferentes hardware.
La poda REAP evalúa la contribución de cada experto en el modelo de expertos híbridos, elimina los expertos con menor contribución y vuelve a numerar las puertas de enrutamiento, minimizando la pérdida de calidad.
La serie ofrece varias variantes principales, incluyendo BF16, NVFP4, GPTQ W4A16 y formato GGUF, con un tamaño de parámetros que varía desde aproximadamente 285GB hasta 1125GB, optimizadas para GPU o CPU con arquitecturas como Hopper, Ampere, Blackwell, etc.
Todos los modelos utilizan la licencia MIT y se pueden desplegar mediante motores como sglang, vLLM o llama.cpp.
(Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado