Google研究所は、1M AI Newsの監測によると、量子圧縮アルゴリズム「TurboQuant」を発表しました。これは、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減し、訓練や微調整を必要とせずにモデルの精度を損なわないものです。4ビットモードでは、NVIDIA H100 GPU上での注意計算速度が32ビット未量子化の基準と比べて最大8倍向上します。研究チームは、LongBench、Needle In A Haystack、ZeroSCROLLSなどの長いコンテキストのベンチマークでGemmaとMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の性能を示しました。このアルゴリズムは、PolarQuantとQJLの二つのサブアルゴリズムから構成されます。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残留誤差を補正します。この研究は、Google研究所のAmir Zandiehと副社長兼Google FellowのVahab Mirrokniが主導し、韓国のKAISTとニューヨーク大学と協力して行われ、2026年のICLRで発表される予定です。Googleは、この技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。
Google TurboQuant:3bit量子化KVキャッシュは精度の損失なく、推論速度は最大8倍向上
Google研究所は、1M AI Newsの監測によると、量子圧縮アルゴリズム「TurboQuant」を発表しました。これは、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減し、訓練や微調整を必要とせずにモデルの精度を損なわないものです。4ビットモードでは、NVIDIA H100 GPU上での注意計算速度が32ビット未量子化の基準と比べて最大8倍向上します。研究チームは、LongBench、Needle In A Haystack、ZeroSCROLLSなどの長いコンテキストのベンチマークでGemmaとMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の性能を示しました。このアルゴリズムは、PolarQuantとQJLの二つのサブアルゴリズムから構成されます。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残留誤差を補正します。この研究は、Google研究所のAmir Zandiehと副社長兼Google FellowのVahab Mirrokniが主導し、韓国のKAISTとニューヨーク大学と協力して行われ、2026年のICLRで発表される予定です。Googleは、この技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。