Согласно мониторингу Beating, Google выпустила и открыла исходный код черновой модели серии Gemma 4 для предсказания нескольких токенов (MTP). Это легкая вспомогательная модель с архитектурой спекулятивного декодирования (speculative decoding, предположительное декодирование), которая, основываясь на сохранении окончательного подтверждающего веса основной модели, обеспечивает ускорение вывода до 3 раз при сохранении качества вывода и логического рассуждения.

Стандартная большая языковая модель может генерировать только один токен за раз, что легко ограничивается пропускной способностью видеопамяти и вызывает простои вычислительных ресурсов. Решение MTP позволяет легкой черновой модели использовать свободные вычислительные мощности, предварительно предсказывая сразу несколько будущих токенов, а затем параллельно проверять их с помощью тяжелой целевой модели, такой как 31B. Если целевая модель согласна с черновиком, она принимает всю последовательность сразу. Для повышения эффективности черновая модель напрямую делится активированными состояниями и кешем KV (хранящим исторический контекст для избегания повторных вычислений) целевой модели; для моделей на стороне устройства E2B и E4B команда также внедрила кластеризацию в слой внедрения.

В настоящее время модель MTP полностью открыта под лицензией Apache 2.0, как и Gemma 4, и нативно поддерживает основные фреймворки для вывода, такие как vLLM, SGLang и Ollama. Это значительное ускорение снижает порог входа для разработчиков, позволяя запускать модели MoE 26B и плотные модели 31B на обычных потребительских видеокартах, а также обеспечивать реальное взаимодействие с ИИ на мобильных устройствах с меньшим энергопотреблением.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
357.68K Популярность
#
BitcoinHoldsFirmAbove80K
94.28M Популярность
#
CryptoMarketRecovery
110.51K Популярность
#
IsraelStrikesIranBTCPlunges
43.21K Популярность
#
AaveSuesToUnfreeze73MInETH
4.15K Популярность

Закрепить

Карта сайта

Максимальное увеличение скорости в 3 раза и нулевые потери, открытая модель декодирования MTP для всей серии Gemma4 от Google

Популярные темы

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закрепить