后训练推理模型SU-01在奥赛级试题中实现金牌性能

robot
摘要生成中
AIMPACT 消息,5 月 16 日(UTC+8),一篇新论文提出将后训练推理模型转化为奥林匹克级别解题器的系统方法,并基于该方法训练出SU-01模型。该方法包含三个步骤:首先使用反向困惑度课程进行监督微调,以灌输严格的证明搜索和自我检查行为;然后通过两阶段强化学习(从可验证奖励强化学习过渡到证明级强化学习)扩展这些行为;最后通过测试时缩放提升性能。研究团队将方法应用于30B-A3B骨干模型,使用约34万条子8K token轨迹进行监督微调,随后进行200步强化学习,得到SU-01。该模型能对困难问题进行稳定推理,轨迹长度超过10万token,在IMO 2025/USAMO 2026和IPhO 2024/2025等竞赛中达到金牌级别,并展示了在数学和物理之外的科学推理领域的泛化能力。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 10
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-46c777d0
· 2小时前
34万条轨迹喂进去,RL才跑200步,数据效率比想象中高
回复0
Candlewick Kid
· 2小时前
物理奥赛也能泛化?想看看它在实验设计题上的表现
回复0
复古收音机电波
· 3小时前
测试时尺度化提升是指test-time compute scaling?
回复0
反光的链条影
· 3小时前
子8K轨迹这个细节有意思,是把长证明拆成小块喂吗
回复0
ByteSizedAlpha
· 3小时前
跨领域泛化这个 claim 很大,等一手具体案例
回复0
彩窗太阳阵列
· 3小时前
自我检查能力可能是最关键的,比单纯生成答案重要多了
回复0
Rugpull之后还在
· 3小时前
30B-A3B这个命名,A3B是激活参数?
回复0
GateUser-52241ed6
· 3小时前
IMO金牌级...以后竞赛是不是要分人类组和AI组了
回复0
GateUser-e72657f0
· 3小时前
反向困惑度课程这个设计很妙,让模型先学会自我怀疑
回复0
GateUser-d2b4d9c6
· 3小时前
10万token的推理链,这已经不是做题是写论文了
回复0
查看更多