Google выпустила и открыла исходный код черновой модели серии Gemma 4 для многотокенового предсказания (MTP), использующую спекулятивное декодирование, достигая до 3-кратного ускорения вывода без потери качества при сохранении окончательных весов основной модели. MTP использует неиспользуемую вычислительную мощность для предварительного предсказания нескольких будущих токенов, которые затем параллельно проверяются тяжелой целевой моделью; если черновик одобрен, вся последовательность принимается за один раз, и активные состояния и кеши KV разделяются. Вводится кластеризация для слоев внедрения E2B/E4B. MTP полностью открыт, поддерживает фреймворки VLLM, SGLang, Ollama и другие, обеспечивает плавную работу 26B MOE и 31B плотных моделей на потребительских видеокартах, а также снижает энергопотребление при использовании мобильных устройств для реального времени ИИ.

CoinNetwork

2026-05-06 00:37:51

Генерация тезисов в процессе

Китайская сеть CoinWorld сообщает, что Google выпустила и открыла исходный код предварительной модели многотокенового предсказания (MTP) серии Gemma 4.
Эта модель использует архитектуру спекулятивного декодирования, позволяя при сохранении окончательного подтверждающего веса основной модели достигать ускорения вывода до 3 раз без потери качества результата.
Решение MTP использует неиспользуемую вычислительную мощность для предварительного предсказания нескольких будущих токенов, которые затем параллельно проверяются тяжелой целевой моделью.
Если целевая модель согласна с черновым предсказанием, она принимает всю последовательность сразу.
Черновая модель делит активные состояния и кеш KV с целевой моделью, а для моделей E2B и E4B команда внедрила кластеризацию на уровне внедрения.
В настоящее время модель MTP полностью открыта, поддерживая основные фреймворки для вывода, такие как VLLM, SGLang и Ollama.
Это улучшение значительно снизило порог входа, позволяя разработчикам легко запускать модели 26B MOE и 31B плотные модели на обычных потребительских видеокартах, а также обеспечивать реальное взаимодействие с ИИ на мобильных устройствах с меньшим энергопотреблением.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
357.68K Популярность
#
BitcoinHoldsFirmAbove80K
94.28M Популярность
#
CryptoMarketRecovery
110.27K Популярность
#
IsraelStrikesIranBTCPlunges
43.21K Популярность
#
AaveSuesToUnfreeze73MInETH
4.15K Популярность

Закрепить

Карта сайта

Google открыла исходный код модели декодирования MTP всей серии Gemma 4, достигнув максимального ускорения в 3 раза

Популярные темы

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закрепить