ブラウザで大規模モデルを動かす時代がついに到来、クラウドサービスの顔色を気にせずに済む。ローカルGPUで直接起動できる。

原文表示
MeNews
llama.cppが正式にWebGPUをサポート、ブラウザ側推論のメモリ使用量が30%以上急減
llama.cpp と ggml の公式 WebGPU バックエンドが正式リリースされ、ブラウザでローカルGPUによる GGUF 大規模モデルの高速実行が可能に。純粋に端末側で、データはデバイス外に出さず、ゼロ設定のプライバシー推論を実現。論文によると、静的メモリ計画と効率的なロードにより、ウェブ端のGPUメモリ使用量を29〜33%削減し、インテル、Apple、NVIDIAデバイス間でのデコードスループットを45〜69%向上させた。デモはwllamaを基にしており、基礎最適化は論文の予想を超えるものとなっている。さらに、Google C++ WebGPU Dawnを用いてローカルでコンパイル可能で、VulkanとWebGPUの比較ベンチマークも提供している。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め