Google TurboQuant：3bit量子化KVキャッシュは精度の損失なく、推論速度は最大8倍向上

CoinNetwork

2026-03-25 05:30:56

概要作成中

Google研究所は、1M AI Newsの監測によると、量子圧縮アルゴリズム「TurboQuant」を発表しました。これは、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減し、訓練や微調整を必要とせずにモデルの精度を損なわないものです。4ビットモードでは、NVIDIA H100 GPU上での注意計算速度が32ビット未量子化の基準と比べて最大8倍向上します。研究チームは、LongBench、Needle In A Haystack、ZeroSCROLLSなどの長いコンテキストのベンチマークでGemmaとMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の性能を示しました。このアルゴリズムは、PolarQuantとQJLの二つのサブアルゴリズムから構成されます。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残留誤差を補正します。この研究は、Google研究所のAmir Zandiehと副社長兼Google FellowのVahab Mirrokniが主導し、韓国のKAISTとニューヨーク大学と協力して行われ、2026年のICLRで発表される予定です。Googleは、この技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。