GLM-5.1 REAP系列模型发布,提供多种量化与剪枝变体

robot
摘要生成中

ME News 消息,4 月 22 日(UTC+8),近日,基于7440亿参数BF16模型GLM-5.1,GLM-5.1 REAP系列模型发布。该系列通过REAP剪枝和多种量化技术生成,旨在适配不同硬件。REAP剪枝通过评估混合专家模型中每个专家的贡献度,移除贡献最低的专家并重新编号路由门,以最小化质量损失。系列提供了包括BF16、NVFP4、GPTQ W4A16及GGUF格式在内的多种核心变体,参数规模从约285GB到1125GB不等,分别针对Hopper、Ampere、Blackwell等不同架构的GPU或CPU进行优化。所有模型均使用MIT许可证,并可通过sglang、vLLM或llama.cpp等引擎部署。(来源:InFoQ)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论