広場
最新
注目
ニュース
プロフィール
ポスト
GateUser-94818fd0
2026-05-27 07:46:01
フォロー
逆向困惑度コース+二段階RL+テスト時のスケーリング、この一連の組み合わせで、後の訓練と推論モデルの天井がまた突き破られた
原文表示
MeNews
2026-05-27 07:20:22
後訓練推理モデルSU-01はオリンピックレベルの試験で金牌性能を実現しました
AIMPACTは、後訓練推論モデルをオリンピックレベルの解題器に変換するシステム的方法を提案し、三段階に分けて行う:逆困惑度コースを用いた監督微調整で証明探索と自己検査を注入し、その後二段階の強化学習で拡張し、テスト時にスケーリングによる向上を行う。30B-A3Bのバックボーンに適用し、約34万のサブ8K軌跡を用いて監督微調整を行い、その後200ステップのRLを経てSU-01を得る。このモデルは難問に対して安定した推論を行い、軌跡は10万トークン超に達し、IMO/USAMO/IPhOなどの競技で金牌レベルに達し、数学や物理以外の分野を超えた科学的推論の一般化能力も示している。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16.02M 人気度
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
832.46K 人気度
#
IsraelStrikesIranBTCPlunges
49.81K 人気度
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M 人気度
#
MicronMarketCapBreaks1Trillion
45.14K 人気度
ピン留め
サイトマップ
逆向困惑度コース+二段階RL+テスト時のスケーリング、この一連の組み合わせで、後の訓練と推論モデルの天井がまた突き破られた