AIMPACT メッセージ、5 月 16 日(UTC+8)、新しい論文が後訓練推論モデルをオリンピックレベルの解答器に変換するシステム的方法を提案し、その方法に基づいてSU-01モデルを訓練した。 この方法は三つのステップを含む:まず逆困惑度コースを用いた監督微調整で厳格な証明探索と自己検査行動を注入;次に二段階の強化学習(検証可能な報酬強化学習から証明レベルの強化学習へ移行)でこれらの行動を拡張;最後にテスト時のスケーリングによる性能向上。 研究チームはこの方法を30B-A3Bバックボーンモデルに適用し、約34万のサブ8Kトークン軌跡を用いて監督微調整を行い、その後200ステップの強化学習を経てSU-01を得た。 このモデルは難問に対して安定した推論を行い、軌跡長は10万トークンを超え、IMO 2025/USAMO 2026やIPhO 2024/2025などの競技会で金メダルレベルに達し、数学や物理以外の科学推論分野での汎化能力も示した。(出典:InFoQ)
後訓練推理模型SU-01在奧賽級試題中實現金牌性能
AIMPACT メッセージ、5 月 16 日(UTC+8)、新しい論文が後訓練推論モデルをオリンピックレベルの解答器に変換するシステム的方法を提案し、その方法に基づいてSU-01モデルを訓練した。
この方法は三つのステップを含む:まず逆困惑度コースを用いた監督微調整で厳格な証明探索と自己検査行動を注入;次に二段階の強化学習(検証可能な報酬強化学習から証明レベルの強化学習へ移行)でこれらの行動を拡張;最後にテスト時のスケーリングによる性能向上。
研究チームはこの方法を30B-A3Bバックボーンモデルに適用し、約34万のサブ8Kトークン軌跡を用いて監督微調整を行い、その後200ステップの強化学習を経てSU-01を得た。
このモデルは難問に対して安定した推論を行い、軌跡長は10万トークンを超え、IMO 2025/USAMO 2026やIPhO 2024/2025などの競技会で金メダルレベルに達し、数学や物理以外の科学推論分野での汎化能力も示した。(出典:InFoQ)