Google випустила та відкрила вихідний код для попередньої моделі серії Gemma 4 з багатотоковим прогнозуванням (MTP), використовуючи спекулятивне декодування, що забезпечує до трьохразового прискорення обчислень без втрати якості виводу, при цьому зберігаючи кінцеві ваги основної моделі. MTP використовує вільні обчислювальні ресурси для попереднього прогнозування багатоканальних майбутніх токенів і паралельно перевіряє їх за допомогою важкої цільової моделі; якщо прогноз схвалено, цілу послідовність приймають одноразово і спільно використовують активні стани та кеші KV. Введено кластеризацію для вбудовувань E2B/E4B. MTP повністю відкритий, підтримує фреймворки VLLM, SGLang, Ollama та інші, може плавно працювати на споживчих графічних процесорах з моделями 26B MOE та 31B щільними моделями, а також зменшує споживання енергії для мобільного реального часу AI.

CoinNetwork

2026-05-06 00:37:51

Генерація анотацій у процесі

Китайське повідомлення, Google випустила та відкрила код прототипу багатотокового передбачення (MTP) для серії Gemma 4. Ця модель використовує архітектуру спекулятивного декодування, що дозволяє досягти до 3-кратного прискорення обчислень при збереженні остаточної ваги перевірки основної моделі та без втрати якості виводу. Рішення MTP використовує вільну обчислювальну потужність для попереднього передбачення кількох майбутніх токенів, а потім паралельно перевіряє їх важка цільова модель. Якщо цільова модель погоджується з чернеткою, вона одразу приймає всю послідовність. Чернеткова модель ділиться активним станом та кешем KV з цільовою моделлю, а для моделей E2B та E4B команда впровадила технологію кластеризації в шарі вбудовування. Наразі модель MTP повністю відкритий код, підтримує основні фреймворки для обчислень, такі як VLLM, SGLang та Ollama. Це значно знизило поріг входу для застосування, дозволяючи розробникам легко запускати 26B MOE та 31B щільні моделі на звичайних споживчих відеокартах, а також підтримувати реальний час AI-інтеракцій на мобільних пристроях з меншим споживанням енергії.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
357.68K Популярність
#
BitcoinHoldsFirmAbove80K
94.28M Популярність
#
CryptoMarketRecovery
110.51K Популярність
#
IsraelStrikesIranBTCPlunges
43.21K Популярність
#
AaveSuesToUnfreeze73MInETH
4.15K Популярність

Закріпити

карта сайту

Google відкрила код Gemma 4 для всієї лінійки моделей MTP для спекулятивного декодування, з максимальною трьохкратною швидкістю

Популярні теми

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закріпити