不再为草稿模型进行离线训练：Together AI 开源 Aurora，用于自我学习的推测解码

空投黑洞 · 2026-04-01T23:05:41+00:00

Together AI 已开源 Aurora，这是一种使用强化学习的自适应推测解码框架，提升了推理的准确性和速度，相较于静态模型。Aurora 实时处理请求，在线调整草稿模型，并在多个领域展现出显著的性能提升。

空投黑洞

2026-04-01 23:05:41

摘要生成中

据 1M AI News 的监测，AI 云平台 Together AI 已开源 Aurora，这是一种基于强化学习的投机解码自适应框架。投机解码是用于加速大模型推理的主流方法：它会用一个小型“草稿模型”快速预测 token 序列，然后由更大的模型并行验证；命中则直接采用，未命中则丢弃以便重新评估。问题在于草稿模型是一个经过离线训练的静态产品；一旦生产流量发生漂移（由于模型升级、用户画像变化或任务类型切换），预测准确率就会持续下降，而离线再训练既昂贵又滞后。Aurora 将投机解码重新定义为一个强化学习问题：草稿模型充当策略，大模型验证器充当环境，被接受的 token 作为正奖励，被拒绝的 token 作为负反馈。该系统由两个解耦的组件构成：推理服务器正常处理请求，并将验证结果流式写入缓冲区；训练服务器异步拉取数据以更新草稿模型权重，并在不打断服务的情况下将其热替换回推理侧。在包含五个领域（数学推理、Text-to-SQL、代码生成、金融和通用对话）的仿真流量测试中，Aurora 在流量领域发生切换后约 10,000 个请求内就恢复了接受长度，相比一个训练良好的静态草稿模型实现了 1.25 倍的加速。值得注意的是，Aurora 从零开始在线训练，其接受长度达到 3.08，超过静态基线 2.63 以及“预训练后微调”基线 2.99，吞吐稳定在 302.3 tokens/秒，直接挑战了“投机解码必须依赖大规模离线预训练”的既有观点。在端到端测试中，投机解码在 Qwen3-Coder-Next (FP8)（batch size=1）上实现了 1.92 倍加速，在 MiniMax M2.5 (FP8) 上实现了 1.63 倍加速。Aurora 的前身 ATLAS 为自适应投机器奠定了基础，而这一升级带来了一个完全自主的闭环系统。代码已在 GitHub 上开源。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

2人点赞了这条动态

赞赏
2
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场四月发帖挑战
5.27万热度
#
加密市场行情震荡
8.11万热度
#
国际油价走高
25.05万热度
#
美以伊战事停火预期增强
44.17万热度
#
DriftProtocol遭黑客攻击
34.44万热度

热门 Gate Fun
查看更多

1
JAT
just a token
市值:$2217.24持有人数:1
0.00%
2
shpns
shit happens
市值:$2270.79持有人数:2
0.24%
3
hyxh
hyxh
市值:$0.1持有人数:1
0.00%
4
101011
SC
市值:$0.1持有人数:1
0.00%
5
@
嘎嘎滴啦虾
市值:$2247.58持有人数:1
0.15%

不再为草稿模型进行离线训练：Together AI 开源 Aurora，用于自我学习的推测解码

热门话题

Gate广场四月发帖挑战

加密市场行情震荡

国际油价走高

美以伊战事停火预期增强

DriftProtocol遭黑客攻击

热门 Gate Fun

JAT

just a token

shpns

shit happens

hyxh

hyxh

101011

SC

@

嘎嘎滴啦虾

置顶