広場
最新
注目
ニュース
プロフィール
ポスト
GalaxyBlockchainResearch
2026-03-26 05:50:23
フォロー
一篇論文が万億市場を揺るがし、ストレージチップの天崩れ...
誰も予想しなかったことに、今週水曜日の米国株市場の開幕時、ストレージチップセクターは「ブラックタイム」を迎え、巨頭の株価は全て下落した——
終値時点で、マイクロンテクノロジーは4%下落、西部データは4.4%下落、シーゲイトは5.6%下落、サンディスクは6.5%の大幅下落。
この売り崩し地震の引き金となったのは、Googleが発表したTurboQuant圧縮アルゴリズムだ。
周知の通り、大規模モデルが稼働する際、KVキャッシュ(KV cache)はまさにメモリ界の「金を飲み込む獣」だ。
以前のトークンを再計算しないために、LLMは「動作記憶」を維持し、対話が長くなるにつれて、この記憶は雪だるま式に急速に膨らむ。
GoogleのTurboQuantは、非常に「暴力的」なスリム化方案を提示している:
まず、KVキャッシュ内の高次元ベクトルに対して「回転」を行い、その後、極座標系を用いて記述し、メモリの消費をゼロにする。
次に、わずか1ビットの追加空間を使って、「校正器」を挿入し、圧縮による系統的偏差を正確に平らげる。
TurboQuantの論文は、来月開催されるICLR 2026で正式に発表される予定だ。
結果は非常に驚異的:再学習なしで、TurboQuantはキャッシュを狂気じみた3ビットに圧縮。
これにより、KVキャッシュの消費は6倍に激減し、しかも推論性能はほとんど損失なく向上。
H100上では、32ビット基準と比較して、4ビットの計算注意力速度は8倍に跳ね上がった。スペースを節約するだけでなく、より高速に動作する。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateOfficiallyIntegratesPolymarket
781.12K 人気度
#
PreciousMetalsLeadGains
321.98K 人気度
#
IsraelStrikesIranBTCPlunges
16.54K 人気度
#
CryptoMarketClimbs
75.77K 人気度
#
USIranClashOverCeasefireTalks
326.9K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
TKN
Taken
時価総額:
$0.1
保有者数:
1
0.00%
2
RM
人民万岁
時価総額:
$2.27K
保有者数:
2
0.00%
3
7DOGE
7DOGE
時価総額:
$0.1
保有者数:
1
0.00%
4
cml
Cml1978
時価総額:
$2.26K
保有者数:
1
0.00%
5
LIan
LD
時価総額:
$2.27K
保有者数:
1
0.00%
ピン
サイトマップ
一篇論文が万億市場を揺るがし、ストレージチップの天崩れ...
誰も予想しなかったことに、今週水曜日の米国株市場の開幕時、ストレージチップセクターは「ブラックタイム」を迎え、巨頭の株価は全て下落した——
終値時点で、マイクロンテクノロジーは4%下落、西部データは4.4%下落、シーゲイトは5.6%下落、サンディスクは6.5%の大幅下落。
この売り崩し地震の引き金となったのは、Googleが発表したTurboQuant圧縮アルゴリズムだ。
周知の通り、大規模モデルが稼働する際、KVキャッシュ(KV cache)はまさにメモリ界の「金を飲み込む獣」だ。
以前のトークンを再計算しないために、LLMは「動作記憶」を維持し、対話が長くなるにつれて、この記憶は雪だるま式に急速に膨らむ。
GoogleのTurboQuantは、非常に「暴力的」なスリム化方案を提示している:
まず、KVキャッシュ内の高次元ベクトルに対して「回転」を行い、その後、極座標系を用いて記述し、メモリの消費をゼロにする。
次に、わずか1ビットの追加空間を使って、「校正器」を挿入し、圧縮による系統的偏差を正確に平らげる。
TurboQuantの論文は、来月開催されるICLR 2026で正式に発表される予定だ。
結果は非常に驚異的:再学習なしで、TurboQuantはキャッシュを狂気じみた3ビットに圧縮。
これにより、KVキャッシュの消費は6倍に激減し、しかも推論性能はほとんど損失なく向上。
H100上では、32ビット基準と比較して、4ビットの計算注意力速度は8倍に跳ね上がった。スペースを節約するだけでなく、より高速に動作する。