Google Pixel розгортає zero-copy MTP, а Gemini Nano прискорює виведення більш ніж на 50% та економить пам’ять.

robot
Генерація анотацій у процесі

За даними моніторингу Beating, Google розгорнув архітектуру багатотокенового прогнозування (MTP) у серіях пристроїв Pixel 9 та Pixel 10, безпосередньо прискоривши вбудовану модель Gemini Nano v3. Приєднавши легкий прогнозувальний заголовок Transformer до замороженого хвоста основної моделі, нова архітектура повністю зберігає вихідне безпекове вирівнювання та якість виводу, водночас підвищуючи швидкість виводу на пристрої більш ніж на 50%.

Традиційне спекулятивне декодування вимагає запуску окремої моделі чернетки для прогнозування кандидатних токенів. Це не лише додатково займає оперативну пам'ять телефону, але й через те, що незалежна модель не має доступу до внутрішніх прихованих станів основної моделі, точність прогнозування обмежена. Нова архітектура шляхом вбудовування заголовка MTP у хвіст замороженої основної моделі успішно повторно використовує вже обчислені активації ознак основної моделі, значно підвищуючи точність прогнозування кандидатних токенів.

Щоб уникнути повторних витрат оперативної пам'яті під час авторегресивної генерації через обчислення чернетки, Google розробив механізм нульового копіювання (zero-copy). У традиційних схемах модель чернетки під час генерації кандидатних слів потребує підтримки окремої пам'яті кешу ключів-значень (KV cache), тоді як механізм нульового копіювання дозволяє зовнішньому прогнозувальному заголовку безпосередньо зчитувати існуючий кеш основної моделі через крос-увагу (Cross-Attention). Це не лише усуває затримку запуску прогнозування чернетки, але й економить близько 130 МБ оперативної пам'яті на телефоні.

У реальних бізнес-задачах Pixel, таких як підсумовування сповіщень та редагування тексту, архітектура MTP дозволяє моделі в середньому успішно прогнозувати майже на 2 токени більше за один вивід, зменшуючи частоту пробудження основного процесора для перевірки, що економить енергоспоживання системи. У завданнях генерації високоструктурованого тексту, таких як інтелектуальні відповіді, прийнятність токенів зросла до 55%.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено