GLM-5.1 REAP série de modelos lançada, oferecendo várias variantes de quantização e poda

robot
Geração do resumo em andamento
Notícias do ME News, 22 de abril (UTC+8), recentemente, foi lançado o modelo GLM-5.1 da série REAP baseado no modelo BF16 de 744 bilhões de parâmetros.
Essa série foi gerada por meio de poda REAP e várias técnicas de quantização, com o objetivo de se adaptar a diferentes hardwares.
A poda REAP avalia a contribuição de cada especialista no modelo de especialistas híbridos, remove os especialistas com menor contribuição e renumera as portas de roteamento, minimizando a perda de qualidade.
A série oferece várias variantes principais, incluindo BF16, NVFP4, GPTQ W4A16 e formato GGUF, com tamanhos de parâmetro variando de aproximadamente 285GB a 1125GB, otimizadas para GPUs ou CPUs com arquiteturas Hopper, Ampere, Blackwell, entre outras.
Todos os modelos usam a licença MIT e podem ser implantados por meio de motores como sglang, vLLM ou llama.cpp.
(Fonte: InFoQ)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado