Hugging Faceがturboquant-gpuツールをリツイートし、5.02倍のKVキャッシュ圧縮を提供すると宣言

robot
概要作成中

MEニュース、4月6日(UTC+8)、Hugging Faceは最近、anirudhbv_ceが投稿したツイートをリツイートし、turboquant-gpuツールのリリースを発表しました。このツールは、任意のGPU(RTX、H100、A100、B200を含む)に最大5.02倍のKVキャッシュ圧縮を提供できると宣伝しています。記事によると、その特徴は以下の通りです:Hugging Face Transformersライブラリと互換性があること;極めてシンプルなAPIを提供し、わずか3行のコードで圧縮と生成を実現できると主張;3-bit Lloyd-Max融合KV圧縮技術を採用し、0.98のコサイン類似度を達成したとしています。記事の見解では、その性能はMXFP4(3.76倍圧縮)や他の未命名の方案よりも優れていると述べています。(出典:InFoQ)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン