По данным мониторинга Beating (Дун Ча), Google внедрила архитектуру многотокенового прогнозирования (MTP) в устройствах серий Pixel 9 и Pixel 10, напрямую ускоряя встроенную модель Gemini Nano v3. Прикрепив легковесный прогностический заголовок Transformer к замороженному хвосту основной модели, новая архитектура полностью сохраняет исходное выравнивание безопасности и качество вывода, одновременно увеличивая скорость вывода на устройстве более чем на 50%.

Традиционное спекулятивное декодирование требует запуска независимой модели черновика для прогнозирования токенов-кандидатов. Это не только дополнительно занимает оперативную память телефона, но и из-за невозможности независимой модели получить доступ к скрытым состояниям основной модели ограничивает точность прогнозирования. Новая архитектура, встраивая заголовок MTP в хвост замороженной основной модели, успешно повторно использует уже вычисленные активации признаков основной модели, значительно повышая точность прогнозирования токенов-кандидатов.

Чтобы избежать повторных расходов оперативной памяти при генерации черновика в процессе авторегрессионной генерации, Google разработала механизм нулевого копирования (zero-copy). В традиционных решениях модель черновика при генерации токенов-кандидатов должна поддерживать независимый кеш ключей-значений (KV cache), в то время как механизм нулевого копирования позволяет внешнему прогностическому заголовку напрямую считывать уже существующий кеш основной модели через механизм кросс-внимания (Cross-Attention). Это не только устраняет задержку запуска прогнозирования черновика, но и освобождает около 130 МБ оперативной памяти телефона.

В реальных приложениях Pixel, таких как сводки уведомлений и проверка текста, архитектура MTP позволяет модели в среднем успешно прогнозировать на 2 токена больше за один вывод, снижая частоту пробуждения основного процессора для проверки и тем самым экономя энергопотребление системы. В задачах генерации высокоструктурированного текста, таких как интеллектуальные ответы, уровень принятия токенов повышается до 55%.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,64M Популярность
#
MicronEarningsBeatExpectationsSharesRise
353,65K Популярность
#
IsraelStrikesIranBTCPlunges
65,31K Популярность
#
PredictWorldCupShare20000U
129,14K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
195,84K Популярность

Закреплено

Карта сайта

Google Pixel развертывает MTP с нулевым копированием, Gemini Nano ускоряет вывод более чем на 50% и экономит память.

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено