Модель серии GLM-5.1 REAP выпущена, предлагая различные варианты квантования и обрезки

robot
Генерация тезисов в процессе
Медиа новости, 22 апреля (UTC+8), недавно была выпущена серия моделей GLM-5.1 REAP на базе модели BF16 с 7440 миллиардами параметров. Эта серия создана с помощью обрезки REAP и различных техник квантования, предназначенных для адаптации к разному оборудованию. Обрезка REAP оценивает вклад каждого эксперта в гибридной модели экспертов, удаляет экспертов с наименьшим вкладом и переименовывает маршрутизирующие ворота, чтобы минимизировать потерю качества. Серия предлагает несколько основных вариантов, включая BF16, NVFP4, GPTQ W4A16 и формат GGUF, с размером параметров от примерно 285 ГБ до 1125 ГБ, оптимизированных для различных архитектур GPU или CPU, таких как Hopper, Ampere, Blackwell. Все модели распространяются под лицензией MIT и могут быть развернуты с помощью движков, таких как sglang, vLLM или llama.cpp. (Источник: InFoQ)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено