币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测(MTP)架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 2
  • 1
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
露珠小树苗
· 2小時前
谷歌這波MTP架構確實有點東西,50%提速還省功耗,移動端AI要變天了
查看原文回復0
AirdropCartographer
· 2小時前
零拷貝機制設計得挺巧,復用特徵激活避免記憶體爆炸,工程細節到位
查看原文回復0