Model seri GLM-5.1 REAP dirilis, menawarkan berbagai varian kuantisasi dan pruning

robot
Pembuatan abstrak sedang berlangsung

Berita ME, 22 April (UTC+8), baru-baru ini, model GLM-5.1 berbasis model BF16 dengan 7440 miliar parameter dan seri model GLM-5.1 REAP dirilis. Seri ini dibuat melalui teknik pruning REAP dan berbagai teknik kuantisasi, bertujuan untuk menyesuaikan dengan berbagai perangkat keras. Pruning REAP menilai kontribusi setiap ahli dalam model ahli campuran, menghapus ahli dengan kontribusi terendah dan menomori ulang pintu routing untuk meminimalkan kehilangan kualitas. Seri ini menyediakan berbagai varian inti termasuk BF16, NVFP4, GPTQ W4A16, dan format GGUF, dengan ukuran parameter dari sekitar 285GB hingga 1125GB, dioptimalkan untuk GPU atau CPU dengan arsitektur berbeda seperti Hopper, Ampere, Blackwell. Semua model menggunakan lisensi MIT dan dapat di-deploy melalui mesin seperti sglang, vLLM, atau llama.cpp. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan