反向困惑度课程+两阶段RL+测试时尺度化,这套组合拳打下来,后训练推理模型的天花板又被捅穿了

ME News
后训练推理模型SU-01在奥赛级试题中实现金牌性能
AIMPACT提出将后训练推理模型转化为奥林匹克级解题器的系统方法,分三步:用反向困惑度课程进行监督微调灌输证明搜索与自我检查;再经两阶段强化学习扩展;测试时再进行尺度化提升。应用于30B-A3B骨干,使用约34万条子8K轨迹进行监督微调,随后200步RL,得到SU-01。该模型能对难题进行稳定推理,轨迹超10万token,在IMO/USAMO/IPhO等竞赛达到金牌级别,并展现跨数学/物理以外领域的科学推理泛化能力。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论