📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
最高提速3倍且零损耗,谷歌开源Gemma4全系MTP投机解码模型
标准的大语言模型每次只能生成一个 token,容易受到显存带宽瓶颈限制并造成算力闲置。MTP 方案让轻量级的草稿模型利用闲置算力,提前一次性预测多个未来 token,再交由 31B 等重型目标模型并行验证。若目标模型同意草稿,就会一次性接收整段序列。为进一步提效,草稿模型直接共享了目标模型的激活状态和 KV 缓存(存储历史上下文以避免重复计算);针对端侧的 E2B 和 E4B 模型,团队还在嵌入层引入了聚类技术。
目前,MTP 模型已采用与 Gemma 4 相同的 Apache 2.0 协议全面开源,并原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。这次提速优化显著降低了应用门槛,使开发者能在普通消费级显卡上流畅运行 26B MoE 和 31B 稠密模型,也能在移动设备上以更低的功耗支撑实时 AI 交互。