GoogleはTurboQuantという論文を発表し、24時間以内にコミュニティがllama.cppに移植しました。


TurboQuantは何をしたのか?大規模モデルのKVキャッシュを3-bitに圧縮し、メモリ使用量を6倍削減、推論速度はH100上で8倍向上させました。
重要なのは——再トレーニングや微調整は不要で、精度も落ちないことです。これがチップ株の暴落の一因です。
Samsung、SK Hynixはソウルで6%以上下落し、Micronは米国株で6.9%下落しました。
市場が恐れているのは——もし各モデルが6倍少ないメモリで動作できるなら、HBMの需要はどうなるのか?
しかし、私は市場の反応は過剰だと思います。理由は非常にシンプルです。節約されたメモリは無駄になりません。より小さなKVキャッシュは、同じGPUでより大きなコンテキストやより多くの並列リクエストを処理できることを意味します。需要は減らず、再配分されるだけです。
これは技術史上何度も繰り返されてきたことです——CPUが高速化すれば、ソフトウェアはすべての性能余裕を使い切る。帯域幅が拡大すれば、動画ストリームがすべての帯域を消費する。メモリが節約されれば、モデルはより大きく、より欲張りになる。
llama.cppのディスカッション#20969には、動作可能なCPU実装(純C、依存なし)とCUDAカーネルがあります。
Apple Silicon上でMetalを使って動作させた人もいます。これにより、ローカルでモデルを動かすハードルがさらに下がりました。
TurboQuantは短期的にはチップ株のネガティブ材料ですが、中期的にはAI業界全体の効率向上による恩恵です。ローカルでモデルを動かす人々は利益を得ています——同じMacにより大きなモデルを詰め込めるのです。チップ企業は慌てる必要はありません——需要は消えず、より効率的に使われるだけです。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン