ME News ニュース、4月22日(UTC+8)、最近、7440億パラメータのBF16モデルGLM-5.1を基にしたGLM-5.1 REAPシリーズモデルがリリースされました。このシリーズはREAP剪定とさまざまな量子化技術を用いて生成され、異なるハードウェアに適応することを目的としています。REAP剪定は、混合専門家モデル内の各専門家の貢献度を評価し、最も貢献度の低い専門家を除去し、ルーティングゲートを再番号付けして、品質の損失を最小限に抑えます。シリーズは、BF16、NVFP4、GPTQ W4A16、GGUFフォーマットを含む複数のコアバリアントを提供し、パラメータ規模は約285GBから1125GBまで異なり、Hopper、Ampere、Blackwellなどの異なるアーキテクチャのGPUやCPUに最適化されています。すべてのモデルはMITライセンスを使用しており、sglang、vLLM、llama.cppなどのエンジンを通じて展開可能です。(出典:InFoQ)
GLM-5.1 REAPシリーズモデルがリリースされ、多様な量子化およびプルーニングバリアントを提供
ME News ニュース、4月22日(UTC+8)、最近、7440億パラメータのBF16モデルGLM-5.1を基にしたGLM-5.1 REAPシリーズモデルがリリースされました。このシリーズはREAP剪定とさまざまな量子化技術を用いて生成され、異なるハードウェアに適応することを目的としています。REAP剪定は、混合専門家モデル内の各専門家の貢献度を評価し、最も貢献度の低い専門家を除去し、ルーティングゲートを再番号付けして、品質の損失を最小限に抑えます。シリーズは、BF16、NVFP4、GPTQ W4A16、GGUFフォーマットを含む複数のコアバリアントを提供し、パラメータ規模は約285GBから1125GBまで異なり、Hopper、Ampere、Blackwellなどの異なるアーキテクチャのGPUやCPUに最適化されています。すべてのモデルはMITライセンスを使用しており、sglang、vLLM、llama.cppなどのエンジンを通じて展開可能です。(出典:InFoQ)