GLM-5.1 REAP dòng mô hình đã phát hành, cung cấp nhiều biến thể lượng hóa và cắt tỉa

Tin tức ME News, ngày 22 tháng 4 (UTC+8), gần đây, dựa trên mô hình BF16 7440 tỷ tham số GLM-5.1, dòng mô hình GLM-5.1 REAP đã được phát hành.
Dòng này được tạo ra thông qua cắt tỉa REAP và nhiều kỹ thuật lượng hóa khác nhau, nhằm phù hợp với các phần cứng khác nhau.
Cắt tỉa REAP đánh giá đóng góp của từng chuyên gia trong mô hình chuyên gia hỗn hợp, loại bỏ những chuyên gia có đóng góp thấp nhất và đặt lại số thứ tự của các cổng định tuyến, nhằm giảm thiểu mất mát chất lượng.
Dòng này cung cấp nhiều biến thể cốt lõi bao gồm BF16, NVFP4, GPTQ W4A16 và định dạng GGUF, với quy mô tham số từ khoảng 285GB đến 1125GB, tối ưu hóa cho các kiến trúc GPU hoặc CPU khác nhau như Hopper, Ampere, Blackwell.
Tất cả các mô hình đều sử dụng giấy phép MIT và có thể triển khai qua các engine như sglang, vLLM hoặc llama.cpp.
(Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim