За даними моніторингу Beating, Google випустила та відкрила вихідний код чорнової моделі серії Gemma 4 для багатотокового прогнозування (MTP). Це легка допоміжна модель, яка використовує архітектуру спекулятивного декодування (speculative decoding), здатна прискорити обчислення до 3 разів, зберігаючи при цьому остаточну вагу перевірки основної моделі та не погіршуючи якість виходу та логічне мислення. Стандартна велика мовна модель може генерувати лише один токен за раз, що легко обмежується пропускною здатністю відеопам’яті та спричиняє простої обчислювальної потужності. Рішення MTP дозволяє легкій чорновій моделі використовувати вільні обчислювальні ресурси, щоб одночасно передбачити кілька майбутніх токенів, а потім паралельно перевірити їх з важкими цільовими моделями, такими як 31B. Якщо цільова модель погоджується з чорновим прогнозом, вона одразу приймає всю послідовність. Для подальшого підвищення ефективності чорнова модель безпосередньо ділиться цільовою моделлю.

BlockBeatNews

2026-05-06 01:20:52

Згідно з моніторингом Beating, Google випустила та відкрила вихідний код для попередньої моделі серії Gemma 4 з багатоконтекстним прогнозуванням (MTP). Це легка допоміжна модель, яка використовує архітектуру спекулятивного декодування (speculative decoding), здатна прискорити обчислення до 3 разів при збереженні остаточної ваги перевірки основної моделі, при цьому не погіршуючи якість виходу та логічні можливості.

Стандартна велика мовна модель може генерувати лише один токен за раз, що легко обмежується вузьким пропускною здатністю пам’яті відеокарти та спричиняє простої обчислювальної потужності. Рішення MTP дозволяє легкій моделі-попереднику використовувати вільні обчислювальні ресурси, щоб заздалегідь одночасно передбачити кілька майбутніх токенів, а потім паралельно перевірити їх із важкими цільовими моделями, такими як 31B. Якщо цільова модель погоджується з попереднім прогнозом, вона одразу приймає всю послідовність. Для додаткового підвищення ефективності, модель-попередник безпосередньо ділиться активізаційним станом та кешем KV (зберігає історичний контекст, щоб уникнути повторних обчислень); для моделей на кінцевому пристрої E2B та E4B команда також впровадила кластеризацію у вбудовувальному шарі.

Наразі модель MTP у повній відповідності з ліцензією Apache 2.0, так само як і Gemma 4, повністю відкритий код і нативно підтримує основні фреймворки для обчислень, такі як vLLM, SGLang та Ollama. Це значно знизило бар’єри для застосування, дозволяючи розробникам легко запускати 26B MoE та 31B щільні моделі на звичайних споживчих відеокартах, а також підтримувати реальний час AI-інтеракцій на мобільних пристроях із меншим споживанням енергії.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
406.68K Популярність
#
BitcoinHoldsFirmAbove80K
94.3M Популярність
#
CryptoMarketRecovery
115.85K Популярність
#
IsraelStrikesIranBTCPlunges
43.23K Популярність
#
AaveSuesToUnfreeze73MInETH
1.84M Популярність

Закріпити

карта сайту

Максимальне прискорення у 3 рази та нульові втрати, відкритий код Google Gemma4 — усі моделі декодування MTP для спекулятивного розгадування

Популярні теми

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закріпити