GLM-5.1 REAP série de modèles publiée, offrant plusieurs variantes de quantification et de pruning

robot
Création du résumé en cours

ME News Actualités, le 22 avril (UTC+8), récemment, la série de modèles GLM-5.1 REAP basée sur le modèle BF16 de 744 milliards de paramètres a été publiée.
Cette série est générée par la technique de pruning REAP et diverses techniques de quantification, visant à s’adapter à différents matériels.
Le pruning REAP évalue la contribution de chaque expert dans un modèle d’experts hybrides, supprime ceux avec la contribution la plus faible et renumérote les portes de routage, afin de minimiser la perte de qualité.
La série propose plusieurs variantes principales, y compris BF16, NVFP4, GPTQ W4A16 et le format GGUF, avec une taille de paramètres allant d’environ 285 Go à 1125 Go, optimisées pour différentes architectures de GPU ou CPU telles que Hopper, Ampere, Blackwell.
Tous les modèles sont sous licence MIT et peuvent être déployés via des moteurs comme sglang, vLLM ou llama.cpp.
(Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler