GLM-5.1 REAP系列模型發布,提供多種量化與剪枝變體

robot
摘要生成中
ME News 消息,4 月 22 日(UTC+8),近日,基於7440億參數BF16模型GLM-5.1,GLM-5.1 REAP系列模型發布。該系列通過REAP剪枝和多種量化技術生成,旨在適配不同硬件。REAP剪枝通過評估混合專家模型中每個專家的貢獻度,移除貢獻最低的專家並重新編號路由門,以最小化質量損失。系列提供了包括BF16、NVFP4、GPTQ W4A16及GGUF格式在內的多種核心變體,參數規模從約285GB到1125GB不等,分別針對Hopper、Ampere、Blackwell等不同架構的GPU或CPU進行優化。所有模型均使用MIT許可證,並可通過sglang、vLLM或llama.cpp等引擎部署。(來源:InFoQ)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆