谷歌Pixel部署零拷貝MTP,Gemini Nano推理提速超50%且省記憶體

robot
摘要生成中
據動察 Beating 監測,Google 在 Pixel 9 與 Pixel 10 系列裝置中部署了多 Token 預測(MTP)架構,直接加速內置的 Gemini Nano v3 模型。透過將輕量級 Transformer 預測頭附加到已凍結的主模型尾部,新架構在完全保留原有安全對齊與輸出品質的同時,將裝置端推理速度提升了 50% 以上。 傳統的投機解碼需要運行一個獨立的草稿模型來預測候選 Token。這不僅額外搶佔手機的運行記憶體,且由於獨立模型無法存取主模型的內部隱藏狀態,導致預測準確率受限。新架構透過在凍結的主模型尾部嵌入 MTP 頭,成功複用主模型已計算的特徵激活,顯著提升了候選 Token 的預測準確率。 為避免草稿計算在自迴歸生成時產生重複的運行記憶體開銷,Google 設計了零拷貝(zero-copy)機制。傳統方案中,草稿模型生成候選詞時需要維護獨立的鍵值快取(KV cache)記憶,而零拷貝機制讓外掛預測頭直接透過交叉注意力(Cross-Attention)去讀取主模型已有的快取。這不僅消除了草稿預測的啟動延遲,還為手機節省了約 130MB 的運行記憶體空間。 在通知摘要與文本校對等 Pixel 實際業務中,MTP 架構使模型單次推理平均能成功多預測近 2 個 Token,降低了主處理器因校驗而頻繁被喚醒的頻率,從而節省了系統功耗。在智慧回覆等高度結構化文本生成任務中,Token 接受率提升達 55%。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆