Gemma 4はついにllama.cppで安定稼働


4月2日にGoogleがGemma 4をリリースし、初日にはllama.cppのサポートも利用可能だったが、多くのバグがあった。今ではすべての問題が修正されている
E2B、E4B、26B MoE、31B Dense
31BはArena AIのリーダーボードで3位、26Bは6位にランクイン
オープンソースモデルの中で最も強力な階層
--chat-template-fileを使用してインタリーブされたテンプレートを読み込む
--cache-ram 2048を有効にすることを推奨
コンテキスト長はVRAMに依存
昨年、最良のローカルモデルはLlama 3.1 70Bの量子化版で、ほとんど使い物にならなかった
今では、Gemma 4 31B Q5がMac Studio上でスムーズに動作し、GPT-4レベルに近づいている
APIに依存しないAIアプリケーションは商業的な可能性を持ち始めている。データはローカルマシンに留まり、コストはゼロ、遅延も非常に低い
一人ビジネスにとって、ローカルモデルは真のインフラストラクチャだ。競合他社がAPI料金を支払う一方で、あなたの限界コストは電気代だけ
Gemma 4 + llama.cpp = ローカル推論の最適解であり、本番運用に備えている
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン