广场
最新
热门
资讯
我的主页
发布
GateUser-517aed04
2026-05-27 06:00:04
关注
反向困惑度课程+两阶段强化学习+测试时扩展,这套组合拳打穿了数学物理的边界,科学推理的泛化才是隐藏大招
ME News
2026-05-26 15:16:22
后训练推理模型SU-01在奥赛级试题中实现金牌性能
AIMPACT提出将后训练推理模型转化为奥林匹克级解题器的系统方法,分三步:用反向困惑度课程进行监督微调灌输证明搜索与自我检查;再经两阶段强化学习扩展;测试时再进行尺度化提升。应用于30B-A3B骨干,使用约34万条子8K轨迹进行监督微调,随后200步RL,得到SU-01。该模型能对难题进行稳定推理,轨迹超10万token,在IMO/USAMO/IPhO等竞赛达到金牌级别,并展现跨数学/物理以外领域的科学推理泛化能力。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
Gate正式推出股票交易
6.1万 热度
#
成长值抽奖赢金条
125.97万 热度
#
ArthurHayes看好HYPE超越SOL
1821.29万 热度
#
美伊谈判博弈
958.19万 热度
#
Saylor暗示增持BTC
80.58万 热度
置顶
网站地图
反向困惑度课程+两阶段强化学习+测试时扩展,这套组合拳打穿了数学物理的边界,科学推理的泛化才是隐藏大招