広場
最新
注目
ニュース
プロフィール
ポスト
TransparentDomeCity
2026-05-26 15:41:02
フォロー
SFTからRL、そしてテスト時のスケーリングへと三段階で進むことで、30Bの小さなモデルをIMO金牌に押し上げる積み木のような段階的進歩、その道筋は恐ろしくも明確だ
原文表示
MeNews
2026-05-26 15:16:22
後訓練推論モデルSU-01は、オリンピックレベルの試験で金牌性能を実現しました
AIMPACTは、後訓練推論モデルをオリンピックレベルの解題器に変換するシステム的方法を提案し、三つのステップに分かれる:逆困惑度コースを用いた監督微調整で証明探索と自己検査を注入し、その後二段階の強化学習で拡張し、テスト時にスケーリングによる向上を行う。30B-A3Bバックボーンに適用し、約34万のサブ8K軌跡を用いた監督微調整の後、200ステップのRLを経てSU-01を得る。このモデルは難問に対して安定した推論を行い、軌跡は10万トークン超に達し、IMO/USAMO/IPhOなどの競技で金メダルレベルに達し、数学や物理以外の分野を超えた科学的推論の一般化能力も示している。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
MyGateTradeStory
77.47K 人気度
#
USMayCPIHitsThreeYearHigh
314.1K 人気度
#
IsraelStrikesIranBTCPlunges
57.27K 人気度
#
USIranConflictEscalates
698.53K 人気度
#
GateLaunchesHongKongStockTrading
673.66K 人気度
ピン留め
サイトマップ
SFTからRL、そしてテスト時のスケーリングへと三段階で進むことで、30Bの小さなモデルをIMO金牌に押し上げる積み木のような段階的進歩、その道筋は恐ろしくも明確だ