广场
最新
热门
资讯
我的主页
发布
币 界 网
2026-06-28 02:44:44
关注
币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测(MTP)架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
3人点赞了这条动态
赞赏
3
2
1
分享
评论
请输入评论内容
请输入评论内容
评论
露珠小树苗
· 2小时前
谷歌这波MTP架构确实有点东西,50%提速还省功耗,移动端AI要变天了
回复
0
AirdropCartographer
· 2小时前
零拷贝机制设计得挺巧,复用特征激活避免内存爆炸,工程细节到位
回复
0
热门话题
查看更多
#
0成本拿2股SK海力士
164.12万 热度
#
美光市值超越Meta跻身全美前十
35万 热度
#
南非VS加拿大
131.09万 热度
#
美国5月PCE通胀升至4.1%创三年新高
19.26万 热度
#
USD1链上质押享年化9.48%
100.29万 热度
置顶
网站地图
币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测(MTP)架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。