Google TurboQuant:3bit量子化KVキャッシュは精度の損失なく、推論速度は最大8倍向上

robot
概要作成中

Google研究所は、1M AI Newsの監測によると、量子圧縮アルゴリズム「TurboQuant」を発表しました。これは、大規模言語モデルのKVキャッシュを3ビットに圧縮でき、メモリ使用量を少なくとも6倍削減し、訓練や微調整を必要とせずにモデルの精度を損なわないものです。4ビットモードでは、NVIDIA H100 GPU上での注意計算速度が32ビット未量子化の基準と比べて最大8倍向上します。研究チームは、LongBench、Needle In A Haystack、ZeroSCROLLSなどの長いコンテキストのベンチマークでGemmaとMistralモデルを用いて検証し、TurboQuantはすべてのテストで最良の性能を示しました。このアルゴリズムは、PolarQuantとQJLの二つのサブアルゴリズムから構成されます。PolarQuantは極座標変換を用いて従来の量子化手法のメモリ負荷を排除し、QJLは1ビットだけで残留誤差を補正します。この研究は、Google研究所のAmir Zandiehと副社長兼Google FellowのVahab Mirrokniが主導し、韓国のKAISTとニューヨーク大学と協力して行われ、2026年のICLRで発表される予定です。Googleは、この技術の主要な応用の一つとして、GeminiなどのモデルのKVキャッシュのボトルネック解消を挙げています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン