廣場
最新
熱門
新聞
我的主頁
發布
币 界 网
2026-06-28 02:44:44
關注
币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测(MTP)架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
3人按讚了這條動態
打賞
3
2
1
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
露珠小树苗
· 2小時前
谷歌這波MTP架構確實有點東西,50%提速還省功耗,移動端AI要變天了
查看原文
回復
0
AirdropCartographer
· 2小時前
零拷貝機制設計得挺巧,復用特徵激活避免記憶體爆炸,工程細節到位
查看原文
回復
0
熱門話題
查看更多
#
0成本拿2股SK海力士
164.12萬 熱度
#
美光市值超越Meta躋身全美前十
35萬 熱度
#
南非VS加拿大
131.09萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
19.26萬 熱度
#
USD1鏈上質押享年化9.48%
100.29萬 熱度
已置頂
網站地圖
币界网消息,谷歌在Pixel 9与Pixel 10系列设备中部署了多token预测(MTP)架构,直接加速内置的Gemini Nano v3模型。新架构通过将轻量级transformer预测头附加到已冻结的主模型尾部,将设备端推理速度提升了50%以上,同时保留了原有的安全对齐与输出质量。为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝机制,成功复用主模型已计算的特征激活,显著提升了候选token的预测准确率。该架构在实际业务中使模型单次推理平均能成功多预测近2个token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。