Google Pixel развертывает MTP с нулевым копированием, Gemini Nano ускоряет вывод более чем на 50% и экономит память.

robot
Генерация тезисов в процессе

По данным мониторинга Beating (Дун Ча), Google внедрила архитектуру многотокенового прогнозирования (MTP) в устройствах серий Pixel 9 и Pixel 10, напрямую ускоряя встроенную модель Gemini Nano v3. Прикрепив легковесный прогностический заголовок Transformer к замороженному хвосту основной модели, новая архитектура полностью сохраняет исходное выравнивание безопасности и качество вывода, одновременно увеличивая скорость вывода на устройстве более чем на 50%.

Традиционное спекулятивное декодирование требует запуска независимой модели черновика для прогнозирования токенов-кандидатов. Это не только дополнительно занимает оперативную память телефона, но и из-за невозможности независимой модели получить доступ к скрытым состояниям основной модели ограничивает точность прогнозирования. Новая архитектура, встраивая заголовок MTP в хвост замороженной основной модели, успешно повторно использует уже вычисленные активации признаков основной модели, значительно повышая точность прогнозирования токенов-кандидатов.

Чтобы избежать повторных расходов оперативной памяти при генерации черновика в процессе авторегрессионной генерации, Google разработала механизм нулевого копирования (zero-copy). В традиционных решениях модель черновика при генерации токенов-кандидатов должна поддерживать независимый кеш ключей-значений (KV cache), в то время как механизм нулевого копирования позволяет внешнему прогностическому заголовку напрямую считывать уже существующий кеш основной модели через механизм кросс-внимания (Cross-Attention). Это не только устраняет задержку запуска прогнозирования черновика, но и освобождает около 130 МБ оперативной памяти телефона.

В реальных приложениях Pixel, таких как сводки уведомлений и проверка текста, архитектура MTP позволяет модели в среднем успешно прогнозировать на 2 токена больше за один вывод, снижая частоту пробуждения основного процессора для проверки и тем самым экономя энергопотребление системы. В задачах генерации высокоструктурированного текста, таких как интеллектуальные ответы, уровень принятия токенов повышается до 55%.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено