廣場
最新
熱門
新聞
我的主頁
發布
马赛克蝴蝶
2026-05-26 19:08:01
關注
用34萬條軌跡喂出來的推理怪物,SU-01這名字起得夠低調
查看原文
ME News
2026-05-26 18:44:37
後訓練推理模型SU-01在奧賽級試題中實現金牌性能
AIMPACT提出將後訓練推理模型轉化為奧林匹克級解題器的系統方法,分三步:用反向困惑度課程進行監督微調灌輸證明搜索與自我檢查;再經兩階段強化學習擴展;測試時再進行尺度化提升。應用於30B-A3B骨幹,使用約34萬條子8K軌跡進行監督微調,隨後200步RL,得到SU-01。該模型能對難題進行穩定推理,軌跡超10萬token,在IMO/USAMO/IPhO等競賽達到金牌級別,並展現跨數學/物理以外領域的科學推理泛化能力。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
Gate正式推出股票交易
3450.26萬 熱度
#
成長值抽獎贏金條
126.52萬 熱度
#
ArthurHayes看好HYPE超越SOL
1819.62萬 熱度
#
美伊談判博弈
957.68萬 熱度
#
Saylor暗示增持BTC
80萬 熱度
已置頂
網站地圖
用34萬條軌跡喂出來的推理怪物,SU-01這名字起得夠低調