MEニュース、4月6日(UTC+8)、Hugging Faceは最近、anirudhbv_ceが投稿したツイートをリツイートし、turboquant-gpuツールのリリースを発表しました。このツールは、任意のGPU(RTX、H100、A100、B200を含む)に最大5.02倍のKVキャッシュ圧縮を提供できると宣伝しています。記事によると、その特徴は以下の通りです:Hugging Face Transformersライブラリと互換性があること;極簡APIを提供し、わずか3行のコードで圧縮と生成を実現できると主張;3-bit Lloyd-Max融合KV圧縮技術を採用し、0.98のコサイン類似度を達成したと宣言。記事の見解では、その性能はMXFP4(3.76倍圧縮)や他の未命名の方案よりも優れているとしています。(出典:InFoQ)
Hugging Faceがturboquant-gpuツールをリツイートし、5.02倍のKVキャッシュ圧縮を提供すると宣言
MEニュース、4月6日(UTC+8)、Hugging Faceは最近、anirudhbv_ceが投稿したツイートをリツイートし、turboquant-gpuツールのリリースを発表しました。このツールは、任意のGPU(RTX、H100、A100、B200を含む)に最大5.02倍のKVキャッシュ圧縮を提供できると宣伝しています。記事によると、その特徴は以下の通りです:Hugging Face Transformersライブラリと互換性があること;極簡APIを提供し、わずか3行のコードで圧縮と生成を実現できると主張;3-bit Lloyd-Max融合KV圧縮技術を採用し、0.98のコサイン類似度を達成したと宣言。記事の見解では、その性能はMXFP4(3.76倍圧縮)や他の未命名の方案よりも優れているとしています。(出典:InFoQ)