34万の軌跡を餌に育てられた推理怪獣、SU-01という名前はちょっと格好いい

原文表示
MeNews
後訓練推論モデルSU-01は、オリンピックレベルの試験で金牌性能を実現しました
AIMPACTは、後訓練推論モデルをオリンピックレベルの解題器に変換するシステム的方法を提案し、三つのステップに分かれる:逆困惑度コースを用いた監督微調整で証明探索と自己検査を注入し、その後二段階の強化学習で拡張し、テスト時にスケーリングによる向上を行う。30B-A3Bバックボーンに適用し、約34万のサブ8K軌跡を用いた監督微調整の後、200ステップのRLを経てSU-01を得る。このモデルは難問に対して安定した推論を行い、軌跡は10万トークン超に達し、IMO/USAMO/IPhOなどの競技で金メダルレベルに達し、数学や物理以外の分野を超えた科学的推論の一般化能力も示している。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし