Gemma 4 наконец стабилен на llama.cpp


2 апреля Google выпустила Gemma 4, и в первый день поддержка llama.cpp была доступна, но с множеством ошибок. Теперь все проблемы исправлены
E2B, E4B, 26B MoE, 31B Dense
31B занимает третье место в рейтинге Arena AI, 26B — шестое
Самый сильный уровень моделей с открытым исходным кодом
Используйте --chat-template-file для загрузки чередующихся шаблонов
Рекомендуется включить --cache-ram 2048
Длина контекста зависит от VRAM
В прошлом году лучшей локальной моделью была Llama 3.1 70B квантованная версия, едва пригодная
Теперь Gemma 4 31B Q5 работает плавно на Mac Studio, приближаясь к уровню GPT-4
AI-приложения, не зависящие от API, начинают иметь коммерческую жизнеспособность. Данные остаются на локальной машине, нулевая стоимость, очень низкая задержка
Для индивидуального бизнеса локальные модели — это настоящая инфраструктура. Пока конкуренты платят за API, ваши дополнительные издержки — только электроэнергия
Gemma 4 + llama.cpp = оптимальное решение для локальной инференции, готовое к производству
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить