Gemma 4 нарешті стабільна на llama.cpp


2 квітня Google випустила Gemma 4, і в перший день підтримка llama.cpp була доступна, але з багатьма помилками. Тепер всі проблеми виправлені
E2B, E4B, 26B MoE, 31B Dense
31B займає третє місце в лідерборді Arena AI, 26B — шосте
Найсильніший рівень відкритих моделей
Використовуйте --chat-template-file для завантаження чергуваних шаблонів
Рекомендується увімкнути --cache-ram 2048
Довжина контексту залежить від VRAM
Минулого року найкращою локальною моделлю була Llama 3.1 70B у квантованій версії, майже непридатна для використання
Зараз Gemma 4 31B Q5 працює гладко на Mac Studio, наближаючись до рівня GPT-4
AI-додатки, що не залежать від API, починають мати комерційну життєздатність. Дані залишаються на локальній машині, нульові витрати, надзвичайно низька затримка
Для бізнесу з одним працівником локальні моделі — це справжня інфраструктура. Поки конкуренти платять за API, ваші додаткові витрати — лише електрика
Gemma 4 + llama.cpp = оптимальне рішення для локального виведення, готове до виробництва
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити