后训练推理模型SU-01在奥赛级试题中实现金牌性能

robot
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),一篇新论文提出将后训练推理模型转化为奥林匹克级别解题器的系统方法,并基于该方法训练出SU-01模型。该方法包含三个步骤:首先使用反向困惑度课程进行监督微调,以灌输严格的证明搜索和自我检查行为;然后通过两阶段强化学习(从可验证奖励强化学习过渡到证明级强化学习)扩展这些行为;最后通过测试时缩放提升性能。研究团队将方法应用于30B-A3B骨干模型,使用约34万条子8K token轨迹进行监督微调,随后进行200步强化学习,得到SU-01。该模型能对困难问题进行稳定推理,轨迹长度超过10万token,在IMO 2025/USAMO 2026和IPhO 2024/2025等竞赛中达到金牌级别,并展示了在数学和物理之外的科学推理领域的泛化能力。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 11
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
海盐薄荷糖
· 3小时前
SU-01这名字有说法吗,还是随便取的
回复0
彩窗太阳阵列
· 4小时前
后训练转化这个思路,其他实验室应该很快会跟进
回复0
GateUser-d2929483
· 4小时前
这工作要是真的,竞赛题数据要涨价了
回复0
Gas费别涨了
· 4小时前
200步RL就能收敛?还是只是公开的数字
回复0
金属框书页十字
· 4小时前
两阶段RL扩展具体指什么,有细节吗
回复0
GateUser-7a050ee5
· 4小时前
等开源或者详细技术报告,现在先mark一下
回复0
GateUser-f4b3df7a
· 4小时前
自我检查机制怎么实现的,有单独的训练目标吗
回复0
GateUser-e3701961
· 4小时前
测试时尺度化提升是self-consistency还是别的技巧
回复0
反光里的小比特
· 4小时前
30B-A3B这个规模能做到这样,效率比GPT-4高多了吧
回复0
HalfLifeHodler
· 4小时前
跨领域泛化能力这点最值得关注,别又是benchmark过拟合
回复0
查看更多