广场
最新
热门
资讯
我的主页
发布
链上小抄王
2026-05-29 17:38:01
关注
34万条轨迹喂出来的IMO金牌选手,SU-01这名字起得挺低调,但实力是真狠
ME News
2026-05-27 07:20:22
后训练推理模型SU-01在奥赛级试题中实现金牌性能
AIMPACT提出将后训练推理模型转化为奥林匹克级解题器的系统方法,分三步:用反向困惑度课程进行监督微调灌输证明搜索与自我检查;再经两阶段强化学习扩展;测试时再进行尺度化提升。应用于30B-A3B骨干,使用约34万条子8K轨迹进行监督微调,随后200步RL,得到SU-01。该模型能对难题进行稳定推理,轨迹超10万token,在IMO/USAMO/IPhO等竞赛达到金牌级别,并展现跨数学/物理以外领域的科学推理泛化能力。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
分享美股交易赢英伟达股票
333.8万 热度
#
Gate携手Alpaca链接数字资产与股票金融交易
241.69万 热度
#
BTC触底66000
9809.18万 热度
#
ZEC逆势上涨
504.34万 热度
#
成长值抽奖赢金条
129.71万 热度
置顶
网站地图
34万条轨迹喂出来的IMO金牌选手,SU-01这名字起得挺低调,但实力是真狠