不再为草稿模型进行离线训练:Together AI 开源 Aurora,用于自我学习的推测解码

robot
摘要生成中

据 1M AI News 的监测,AI 云平台 Together AI 已开源 Aurora,这是一种基于强化学习的投机解码自适应框架。投机解码是用于加速大模型推理的主流方法:它会用一个小型“草稿模型”快速预测 token 序列,然后由更大的模型并行验证;命中则直接采用,未命中则丢弃以便重新评估。问题在于草稿模型是一个经过离线训练的静态产品;一旦生产流量发生漂移(由于模型升级、用户画像变化或任务类型切换),预测准确率就会持续下降,而离线再训练既昂贵又滞后。Aurora 将投机解码重新定义为一个强化学习问题:草稿模型充当策略,大模型验证器充当环境,被接受的 token 作为正奖励,被拒绝的 token 作为负反馈。该系统由两个解耦的组件构成:推理服务器正常处理请求,并将验证结果流式写入缓冲区;训练服务器异步拉取数据以更新草稿模型权重,并在不打断服务的情况下将其热替换回推理侧。在包含五个领域(数学推理、Text-to-SQL、代码生成、金融和通用对话)的仿真流量测试中,Aurora 在流量领域发生切换后约 10,000 个请求内就恢复了接受长度,相比一个训练良好的静态草稿模型实现了 1.25 倍的加速。值得注意的是,Aurora 从零开始在线训练,其接受长度达到 3.08,超过静态基线 2.63 以及“预训练后微调”基线 2.99,吞吐稳定在 302.3 tokens/秒,直接挑战了“投机解码必须依赖大规模离线预训练”的既有观点。在端到端测试中,投机解码在 Qwen3-Coder-Next (FP8)(batch size=1)上实现了 1.92 倍加速,在 MiniMax M2.5 (FP8) 上实现了 1.63 倍加速。Aurora 的前身 ATLAS 为自适应投机器奠定了基础,而这一升级带来了一个完全自主的闭环系统。代码已在 GitHub 上开源。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论