Googleが圧縮アルゴリズムTurboQuantをリリース、約6倍のメモリ削減を実現したと発表

robot
概要作成中

Googleは、人工知能システムのメモリ需要を低減できる可能性のある圧縮アルゴリズム「TurboQuant」を発表しました。TurboQuantの圧縮技術は、大規模言語モデルやベクトル検索エンジンのメモリ使用量を削減することを目的としています。このアルゴリズムは、AIシステム内で高頻度アクセス情報を保存するためのキー値キャッシュ(key-value cache)のボトルネック問題に主に対応しています。コンテキストウィンドウが拡大するにつれて、これらのキャッシュは主要なメモリのボトルネックとなっています。TurboQuantは、モデルの再訓練や微調整を行うことなく、キー値キャッシュを3ビット精度に圧縮しつつ、モデルの精度をほぼ維持することが可能です。Gemmaなどのオープンソースモデルを用いたテストでは、この技術により約6倍のキー値キャッシュのメモリ圧縮効果が得られることが示されています。(財聯社)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン