後訓練推理模型SU-01在奧賽級試題中實現金牌性能

robot
概要作成中
AIMPACT メッセージ、5 月 16 日(UTC+8)、新しい論文が後訓練推論モデルをオリンピックレベルの解答器に変換するシステム的方法を提案し、その方法に基づいてSU-01モデルを訓練した。
この方法は三つのステップを含む:まず、逆困惑度コースを用いた監督微調整で厳格な証明探索と自己検査行動を注入する;次に、二段階の強化学習(検証可能な報酬強化学習から証明レベルの強化学習への移行)を通じてこれらの行動を拡張する;最後に、テスト時のスケーリングによって性能を向上させる。
研究チームはこの方法を30B-A3Bバックボーンモデルに適用し、約34万のサブ8Kトークン軌跡を用いて監督微調整を行い、その後200ステップの強化学習を経てSU-01を得た。
このモデルは難しい問題に対して安定した推論を行うことができ、軌跡長は10万トークンを超え、IMO 2025/USAMO 2026やIPhO 2024/2025などの競技で金メダルレベルに達し、数学や物理以外の科学推論分野での一般化能力も示した。(出典:InFoQ)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 8
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
SucculentCross-Section
· 22分前
IMO金牌レベル?まずはオープンソースの再現を待とう
原文表示返信0
DeepBlueStakingStone
· 1時間前
34万条軌跡データ量は実際にはそれほど大きくありませんが、品質の選別はかなり手間がかかると推測されます
原文表示返信0
BlackVelvetKeychain
· 6時間前
逆向困惑度コースのこの設計はとても面白いです。人間の問題解答経験をエンコードしています。
原文表示返信0
OrdersPlacedBeforeTheStorm
· 6時間前
自己点検メカニズムが可視化できるなら、デバッグの推論過程がずっと便利になるだろう
原文表示返信0
VinesCoiledIntoGeometricShapes
· 6時間前
物理競技もカバー、これで物理競技の学生はAIと練習できるようになった
原文表示返信0
BridgeAnxiety
· 6時間前
A3Bはどのようなアーキテクチャですか、詳しい方、説明してもらえますか
原文表示返信0
GateUser-ecf4759e
· 6時間前
子8K軌跡この粒度の選択には工夫が必要で、長すぎると勾配伝播が爆発します。
原文表示返信0
FudAlsoNeedsAnImage
· 6時間前
最後の一文「科学推理の一般化」がポラニーの逆説を思い出させる——私たちは自分たちが表現する以上のことを知っている、AIは今、その未言明の直感に触れることができるのだろうか
原文表示返信0