Google открыла исходный код модели декодирования MTP всей серии Gemma 4, достигнув максимального ускорения в 3 раза

robot
Генерация тезисов в процессе

Китайская сеть CoinWorld сообщает, что Google выпустила и открыла исходный код предварительной модели многотокенового предсказания (MTP) серии Gemma 4.
Эта модель использует архитектуру спекулятивного декодирования, позволяя при сохранении окончательного подтверждающего веса основной модели достигать ускорения вывода до 3 раз без потери качества результата.
Решение MTP использует неиспользуемую вычислительную мощность для предварительного предсказания нескольких будущих токенов, которые затем параллельно проверяются тяжелой целевой моделью.
Если целевая модель согласна с черновым предсказанием, она принимает всю последовательность сразу.
Черновая модель делит активные состояния и кеш KV с целевой моделью, а для моделей E2B и E4B команда внедрила кластеризацию на уровне внедрения.
В настоящее время модель MTP полностью открыта, поддерживая основные фреймворки для вывода, такие как VLLM, SGLang и Ollama.
Это улучшение значительно снизило порог входа, позволяя разработчикам легко запускать модели 26B MOE и 31B плотные модели на обычных потребительских видеокартах, а также обеспечивать реальное взаимодействие с ИИ на мобильных устройствах с меньшим энергопотреблением.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить