Google відкрила код Gemma 4 для всієї лінійки моделей MTP для спекулятивного декодування, з максимальною трьохкратною швидкістю

robot
Генерація анотацій у процесі

Китайське повідомлення, Google випустила та відкрила код прототипу багатотокового передбачення (MTP) для серії Gemma 4. Ця модель використовує архітектуру спекулятивного декодування, що дозволяє досягти до 3-кратного прискорення обчислень при збереженні остаточної ваги перевірки основної моделі та без втрати якості виводу. Рішення MTP використовує вільну обчислювальну потужність для попереднього передбачення кількох майбутніх токенів, а потім паралельно перевіряє їх важка цільова модель. Якщо цільова модель погоджується з чернеткою, вона одразу приймає всю послідовність. Чернеткова модель ділиться активним станом та кешем KV з цільовою моделлю, а для моделей E2B та E4B команда впровадила технологію кластеризації в шарі вбудовування. Наразі модель MTP повністю відкритий код, підтримує основні фреймворки для обчислень, такі як VLLM, SGLang та Ollama. Це значно знизило поріг входу для застосування, дозволяючи розробникам легко запускати 26B MOE та 31B щільні моделі на звичайних споживчих відеокартах, а також підтримувати реальний час AI-інтеракцій на мобільних пристроях з меншим споживанням енергії.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити