广场
最新
热门
资讯
我的主页
发布
谷歌Pixel部署零拷贝MTP,Gemini Nano推理提速超50%且省内存
MarsBit News
2026-06-28 03:19:15
关注
摘要生成中
据动察 Beating 监测,谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测(MTP)架构,直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部,新架构在完全保留原有安全对齐与输出质量的同时,将设备端推理速度提升了 50% 以上。 传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存,且由于独立模型无法访问主模型的内部隐藏状态,导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头,成功复用主模型已计算的特征激活,显著提升了候选 Token 的预测准确率。 为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝(zero-copy)机制。传统方案中,草稿模型生成候选词时需要维护独立的键值缓存(KV cache)记忆,而零拷贝机制让外挂预测头直接通过交叉注意力(Cross-Attention)去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟,还为手机节省了约 130MB 的运行内存空间。 在通知摘要与文本校对等 Pixel 实际业务中,MTP 架构使模型单次推理平均能成功多预测近 2 个 Token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。在智能回复等高度结构化文本生成任务中,Token 接受率提升达 55%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
164.51万 热度
#
美光市值超越Meta跻身全美前十
35.36万 热度
#
南非VS加拿大
12.91万 热度
#
美国5月PCE通胀升至4.1%创三年新高
19.58万 热度
#
USD1链上质押享年化9.48%
100.58万 热度
置顶
网站地图
谷歌Pixel部署零拷贝MTP,Gemini Nano推理提速超50%且省内存