广场
最新
热门
资讯
我的主页
发布
FarmingNoSleep
2026-05-28 09:46:01
关注
34万条轨迹喂出来的推理怪兽,SU-01这名字起得有点东西
ME News
2026-05-27 09:09:22
后训练推理模型SU-01在奥赛级试题中实现金牌性能
AIMPACT提出将后训练推理模型转化为奥林匹克级解题器的系统方法,分三步:用反向困惑度课程进行监督微调灌输证明搜索与自我检查;再经两阶段强化学习扩展;测试时再进行尺度化提升。应用于30B-A3B骨干,使用约34万条子8K轨迹进行监督微调,随后200步RL,得到SU-01。该模型能对难题进行稳定推理,轨迹超10万token,在IMO/USAMO/IPhO等竞赛达到金牌级别,并展现跨数学/物理以外领域的科学推理泛化能力。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
成长值抽奖赢金条
123.78万 热度
#
WTI原油失守90美元
119.48万 热度
#
股票交易挑战最高赢17000U
19.82万 热度
#
美伊谈判博弈
942.2万 热度
#
交易CFD送黄金
321.46万 热度
置顶
网站地图
34万条轨迹喂出来的推理怪兽,SU-01这名字起得有点东西