币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测(MTP)架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 2
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
DewdropSapling
· 3год тому
Архітектура MTP від Google дійсно має щось: прискорення на 50% та економія енергії, мобільний ШІ зазнає кардинальних змін.
Переглянути оригіналвідповісти на0
AirdropCartographer
· 3год тому
Механізм нульового копіювання досить розумно спроектований, повторне використання активацій ознак дозволяє уникнути вибуху пам'яті, інженерні деталі в порядку.
Переглянути оригіналвідповісти на0
  • Закріплено