2026-04-10 13:57:32

Gemma 4はついにllama.cppで安定稼働

4月2日にGoogleがGemma 4をリリースし、初日にはllama.cppのサポートも利用可能だったが、多くのバグがあった。今ではすべての問題が修正されている
E2B、E4B、26B MoE、31B Dense
31BはArena AIのリーダーボードで3位、26Bは6位にランクイン
オープンソースモデルの中で最も強力な階層
--chat-template-fileを使用してインタリーブされたテンプレートを読み込む
--cache-ram 2048を有効にすることを推奨
コンテキスト長はVRAMに依存
昨年、最良のローカルモデルはLlama 3.1 70Bの量子化版で、ほとんど使い物にならなかった
今では、Gemma 4 31B Q5がMac Studio上でスムーズに動作し、GPT-4レベルに近づいている
APIに依存しないAIアプリケーションは商業的な可能性を持ち始めている。データはローカルマシンに留まり、コストはゼロ、遅延も非常に低い
一人ビジネスにとって、ローカルモデルは真のインフラストラクチャだ。競合他社がAPI料金を支払う一方で、あなたの限界コストは電気代だけ
Gemma 4 + llama.cpp = ローカル推論の最適解であり、本番運用に備えている

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね