广场
最新
热门
资讯
我的主页
发布
V4后训练换代:OPD替代混合RL,十余个专家模型蒸馏为一
ME News
2026-07-02 06:56:03
关注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek V4 后训练方法论发生重大变化:V3.2 的 mixed RL 阶段被 On-Policy Distillation(OPD,在线策略蒸馏)完全替代。 新流程分两步。第一步,针对数学、代码、Agent、指令跟随等领域,在 V3.2 流水线基础上分别训练领域专家模型,每个专家先做微调再用 GRPO 做强化学习。第二步,用多教师 OPD 将十余个专家的能力蒸馏进一个统一模型:学生在自身生成的轨迹上,对每个教师做 reverse KL 散度的全词表 logit 蒸馏,通过 logits 级别的对齐把多个专家权重合并到统一参数空间,避免传统 weight merging 和 mixed RL 常见的能力冲突。 报告还提出 Generative Reward Model(GRM,生成式奖励模型):对于难以用规则验证的任务,不再训练传统标量奖励模型,而是用 rubric 引导的 RL 数据训练 GRM,让 actor 网络同时承担生成和评判能力,用少量多样化人工标注即可泛化到复杂任务。 (来源:BlockBeats)
DEEPSEEK
-3.86%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
Gate股票转仓功能上线
53.98万 热度
#
Circle股价重挫17%
416.76万 热度
#
预测世界杯葡萄牙VS克罗地亚
16.76万 热度
#
GateCard上线积分体系
12.1万 热度
#
非农数据倒计时
92.16万 热度
置顶
网站地图
V4后训练换代:OPD替代混合RL,十余个专家模型蒸馏为一