Максимальное увеличение скорости в 3 раза и нулевые потери, открытая модель декодирования MTP для всей серии Gemma4 от Google

Согласно мониторингу Beating, Google выпустила и открыла исходный код черновой модели серии Gemma 4 для предсказания нескольких токенов (MTP). Это легкая вспомогательная модель с архитектурой спекулятивного декодирования (speculative decoding, предположительное декодирование), которая, основываясь на сохранении окончательного подтверждающего веса основной модели, обеспечивает ускорение вывода до 3 раз при сохранении качества вывода и логического рассуждения.

Стандартная большая языковая модель может генерировать только один токен за раз, что легко ограничивается пропускной способностью видеопамяти и вызывает простои вычислительных ресурсов. Решение MTP позволяет легкой черновой модели использовать свободные вычислительные мощности, предварительно предсказывая сразу несколько будущих токенов, а затем параллельно проверять их с помощью тяжелой целевой модели, такой как 31B. Если целевая модель согласна с черновиком, она принимает всю последовательность сразу. Для повышения эффективности черновая модель напрямую делится активированными состояниями и кешем KV (хранящим исторический контекст для избегания повторных вычислений) целевой модели; для моделей на стороне устройства E2B и E4B команда также внедрила кластеризацию в слой внедрения.

В настоящее время модель MTP полностью открыта под лицензией Apache 2.0, как и Gemma 4, и нативно поддерживает основные фреймворки для вывода, такие как vLLM, SGLang и Ollama. Это значительное ускорение снижает порог входа для разработчиков, позволяя запускать модели MoE 26B и плотные модели 31B на обычных потребительских видеокартах, а также обеспечивать реальное взаимодействие с ИИ на мобильных устройствах с меньшим энергопотреблением.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить