✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
不再为草稿模型进行离线训练:Together AI 开源 Aurora,用于自我学习的推测解码
据 1M AI News 的监测,AI 云平台 Together AI 已开源 Aurora,这是一种基于强化学习的投机解码自适应框架。投机解码是用于加速大模型推理的主流方法:它会用一个小型“草稿模型”快速预测 token 序列,然后由更大的模型并行验证;命中则直接采用,未命中则丢弃以便重新评估。问题在于草稿模型是一个经过离线训练的静态产品;一旦生产流量发生漂移(由于模型升级、用户画像变化或任务类型切换),预测准确率就会持续下降,而离线再训练既昂贵又滞后。Aurora 将投机解码重新定义为一个强化学习问题:草稿模型充当策略,大模型验证器充当环境,被接受的 token 作为正奖励,被拒绝的 token 作为负反馈。该系统由两个解耦的组件构成:推理服务器正常处理请求,并将验证结果流式写入缓冲区;训练服务器异步拉取数据以更新草稿模型权重,并在不打断服务的情况下将其热替换回推理侧。在包含五个领域(数学推理、Text-to-SQL、代码生成、金融和通用对话)的仿真流量测试中,Aurora 在流量领域发生切换后约 10,000 个请求内就恢复了接受长度,相比一个训练良好的静态草稿模型实现了 1.25 倍的加速。值得注意的是,Aurora 从零开始在线训练,其接受长度达到 3.08,超过静态基线 2.63 以及“预训练后微调”基线 2.99,吞吐稳定在 302.3 tokens/秒,直接挑战了“投机解码必须依赖大规模离线预训练”的既有观点。在端到端测试中,投机解码在 Qwen3-Coder-Next (FP8)(batch size=1)上实现了 1.92 倍加速,在 MiniMax M2.5 (FP8) 上实现了 1.63 倍加速。Aurora 的前身 ATLAS 为自适应投机器奠定了基础,而这一升级带来了一个完全自主的闭环系统。代码已在 GitHub 上开源。