Повідомлення з CoinWorld, Google випустила та відкрила код для попередньої моделі багатотокового прогнозування (MTP) серії Gemma 4. Це легка допоміжна модель, побудована на архітектурі спекулятивного декодування (speculative decoding), яка може забезпечити до трьохразового прискорення обчислень при збереженні остаточної перевірочної ваги основної моделі, при цьому не погіршуючи якість виводу та логічне мислення. Ця модель повністю відкрито розповсюджується під тією ж ліцензією Apache 2.0, що й Gemma 4, і нативно підтримує такі популярні фреймворки для обчислень, як vllm, sglang та ollama. Це значне покращення швидкості знижує поріг входу для розробників, дозволяючи плавно запускати моделі 26b moe та 31b щільних моделей на звичайних споживчих відеокартах, а також підтримувати реальновремінний AI-інтерактив на мобільних пристроях з меншим споживанням енергії.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити