Новости CoinWorld,谷歌发布并开源了Gemma 4系列的多Token预测(MTP)草稿模型。这是一个采用投机解码(speculative decoding)架构的轻量级辅助模型,能够在主模型保留最终验证权的基础上,实现最高3倍的推理加速,且完全不损失输出质量和逻辑推理能力。该模型已采用与Gemma 4相同的Apache 2.0协议全面开源,并原生支持vllm、sglang和ollama等主流推理框架。这次提速优化显著降低了应用门槛,使开发者能够在普通消费级显卡上流畅运行26b moe和31b稠密模型,也能在移动设备上以更低的功耗支持实时AI交互。

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить