llama.cppが正式にWebGPUをサポート、ブラウザ側推論のメモリ使用量が30%以上急減

robot
概要作成中
ME AI メッセージ、動作観測ビート監視によると、llama.cpp と ggml の公式 WebGPU バックエンドが正式にリリースされ、ブラウザ内で直接ローカル GPU を利用して GGUF 形式の大規模モデルを高速化して実行できるようになった。新しいバックエンドは特定のネイティブクライアントや複雑な WebAssembly アーキテクチャへの依存を排除し、純粋な端末側での推論とデータがデバイス外に出ないプライバシーを実現し、ウェブエコシステムにゼロ設定のローカル計算力入口を提供した。 5 月 20 日に発表された関連論文によると、WebGPU バックエンドは静的メモリ計画と効率的なモデル読み込みメカニズムを導入し、ウェブ端末での実行時のGPUメモリ消費を既存のフレームワークと比べて29%から33%削減した。インテル、アップル、NVIDIA などの主流GPUデバイス上で、デコードスループットは平均して45%から69%向上した。 ウェブ端末のデモはオープンソースライブラリ wllama を用いて動作し、最近の底層最適化により論文よりも優れたGPUメモリ制御を実現した。llama.cpp はまた、Google の C++ WebGPU 実装 Dawn を通じてローカルネイティブにコンパイル可能であり、Vulkan と WebGPU の底層性能比較のための評価基準を提供している。 (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 10
  • 2
  • 共有
コメント
コメントを追加
コメントを追加
UnderTheGlassDome
· 4時間前
ggmlこのWebGPU対応は本当に細かく作られていて、29%のメモリ使用量削減は素晴らしい
原文表示返信0
StargazerInTheWoods
· 5時間前
WebGPU普及的最大障碍是Safari支持吗?
返信0
MountainBeforeTheStorm
· 5時間前
純端側推論は、ついに私のチャット履歴をクラウドにアップロードしなくても良くなることを意味します
原文表示返信0
OwlMarketMonitoringLamp
· 6時間前
ついにブラウザでローカル大規模モデルを動かせるようになった、プライバシー重視派は大喜び
原文表示返信0
BridgeHopRanger
· 6時間前
これからChromeは私のAI IDEになります
原文表示返信0
APuppyInTheWarmSun
· 6時間前
45-69%のスループット向上、ウェブ端の体験が質的に変化
原文表示返信0
LpGrandma
· 6時間前
GGUFフォーマット+WebGPU、llama.cppエコシステムがますます充実
原文表示返信0
AirdropArchivist
· 6時間前
このリリースペース、llama.cppチームは本当に寝ていないね
原文表示返信0
RetroRadioEcho
· 6時間前
静的メモリ計画 この技術用語は見ただけでメモリ節約になるように聞こえる
原文表示返信0
ReboundAtTheStreetCornerAfter
· 6時間前
Dawnはこの道をハードコアプレイヤーに裏口を残すためにコンパイルしている、好評
原文表示返信0
もっと見る
  • ピン留め