逆向困惑度コース+二段階RL+テスト時のスケーリング、この一連の組み合わせで、後の訓練と推論モデルの天井がまた突き破られた

原文表示
MeNews
後訓練推理モデルSU-01はオリンピックレベルの試験で金牌性能を実現しました
AIMPACTは、後訓練推論モデルをオリンピックレベルの解題器に変換するシステム的方法を提案し、三段階に分けて行う:逆困惑度コースを用いた監督微調整で証明探索と自己検査を注入し、その後二段階の強化学習で拡張し、テスト時にスケーリングによる向上を行う。30B-A3Bのバックボーンに適用し、約34万のサブ8K軌跡を用いて監督微調整を行い、その後200ステップのRLを経てSU-01を得る。このモデルは難問に対して安定した推論を行い、軌跡は10万トークン超に達し、IMO/USAMO/IPhOなどの競技で金牌レベルに達し、数学や物理以外の分野を超えた科学的推論の一般化能力も示している。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし