Максимальне прискорення у 3 рази та нульові втрати, відкритий код Google Gemma4 — усі моделі декодування MTP для спекулятивного розгадування

Згідно з моніторингом Beating, Google випустила та відкрила вихідний код для попередньої моделі серії Gemma 4 з багатоконтекстним прогнозуванням (MTP). Це легка допоміжна модель, яка використовує архітектуру спекулятивного декодування (speculative decoding), здатна прискорити обчислення до 3 разів при збереженні остаточної ваги перевірки основної моделі, при цьому не погіршуючи якість виходу та логічні можливості.

Стандартна велика мовна модель може генерувати лише один токен за раз, що легко обмежується вузьким пропускною здатністю пам’яті відеокарти та спричиняє простої обчислювальної потужності. Рішення MTP дозволяє легкій моделі-попереднику використовувати вільні обчислювальні ресурси, щоб заздалегідь одночасно передбачити кілька майбутніх токенів, а потім паралельно перевірити їх із важкими цільовими моделями, такими як 31B. Якщо цільова модель погоджується з попереднім прогнозом, вона одразу приймає всю послідовність. Для додаткового підвищення ефективності, модель-попередник безпосередньо ділиться активізаційним станом та кешем KV (зберігає історичний контекст, щоб уникнути повторних обчислень); для моделей на кінцевому пристрої E2B та E4B команда також впровадила кластеризацію у вбудовувальному шарі.

Наразі модель MTP у повній відповідності з ліцензією Apache 2.0, так само як і Gemma 4, повністю відкритий код і нативно підтримує основні фреймворки для обчислень, такі як vLLM, SGLang та Ollama. Це значно знизило бар’єри для застосування, дозволяючи розробникам легко запускати 26B MoE та 31B щільні моделі на звичайних споживчих відеокартах, а також підтримувати реальний час AI-інтеракцій на мобільних пристроях із меншим споживанням енергії.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити