事前学習レシピ19.7分対35.9分、十回の探索で完了、効率重視派大喜び

原文表示
MeNews
スタンフォードNLPチームが自動化AI研究の新進展を披露
スタンフォードNLPはICML 2026で、自動化された実行者を通じてLLMの事前訓練と後訓練を実行環境に変換し、実行フィードバックを利用して研究効率を向上させる方法を展示した。二つの方法:進化的探索は後訓練タスクでGRPO(69.4%対48.0%)より優れており、事前訓練タスクで見つかったレシピはnanoGPTよりも速い(19.7分対35.9分)、両者とも十回の探索内で完了;実行報酬に基づく強化学習はモード崩壊を起こしやすく、平均報酬は向上したが上限は上がらなかった。この研究は、実行指向の自動化AI研究の方向性を示している。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め