[ME AI]() メッセージ、動作観測ビート監視によると、llama.cpp と ggml の公式 WebGPU バックエンドが正式にリリースされ、ブラウザ内で直接ローカル GPU を利用して GGUF 形式の大規模モデルを高速化して実行できるようになった。新しいバックエンドは特定のネイティブクライアントや複雑な WebAssembly アーキテクチャへの依存を排除し、純粋な端末側での推論とデータがデバイス外に出ないプライバシーを実現し、ウェブエコシステムにゼロ設定のローカル計算力入口を提供した。 5 月 20 日に発表された関連論文によると、WebGPU バックエンドは静的メモリ計画と効率的なモデル読み込みメカニズムを導入し、ウェブ端末での実行時のGPUメモリ消費を既存のフレームワークと比べて29%から33%削減した。インテル、アップル、NVIDIA などの主流GPUデバイス上で、デコードスループットは平均して45%から69%向上した。 ウェブ端末のデモはオープンソースライブラリ wllama を用いて動作し、最近の底層最適化により論文よりも優れたGPUメモリ制御を実現した。llama.cpp はまた、Google の C++ WebGPU 実装 Dawn を通じてローカルネイティブにコンパイル可能であり、Vulkan と WebGPU の底層性能比較のための評価基準を提供している。 (出典:BlockBeats)
llama.cppが正式にWebGPUをサポート、ブラウザ側推論のメモリ使用量が30%以上急減