币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测(MTP)架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 2
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
露珠小树苗
· 2小时前
谷歌这波MTP架构确实有点东西,50%提速还省功耗,移动端AI要变天了
回复0
AirdropCartographer
· 2小时前
零拷贝机制设计得挺巧,复用特征激活避免内存爆炸,工程细节到位
回复0