AIMPACT メッセージ、5 月 15 日(UTC+8)、スタンフォードNLPチームはICML 2026会議で自動化AI研究の新しい取り組みを発表しました。 自動化エージェントを構築し、LLMの事前訓練と後訓練を実行環境に変換し、実行フィードバックを利用して研究の有効性を向上させるものです。 研究は二つの方法を分析しました:進化的探索はサンプル効率が高く、後訓練タスクで見つかった方法はGRPOのベースライン(69.4%対比48.0%)より優れ、事前訓練タスクで見つかったレシピはnanoGPTのベースライン(19.7分対比35.9分)より優れており、いずれも十回の探索サイクル内で完了しました。 一方、実行報酬に基づく強化学習はモード崩壊の問題に直面し、平均報酬は向上したものの上限は改善されませんでした。 この研究は、実行指向の自動化AI研究に新たな方向性を示しています。(出典:InFoQ)
スタンフォードNLPチームが自動化AI研究の新進展を披露
自動化エージェントを構築し、LLMの事前訓練と後訓練を実行環境に変換し、実行フィードバックを利用して研究の有効性を向上させるものです。
研究は二つの方法を分析しました:進化的探索はサンプル効率が高く、後訓練タスクで見つかった方法はGRPOのベースライン(69.4%対比48.0%)より優れ、事前訓練タスクで見つかったレシピはnanoGPTのベースライン(19.7分対比35.9分)より優れており、いずれも十回の探索サイクル内で完了しました。
一方、実行報酬に基づく強化学習はモード崩壊の問題に直面し、平均報酬は向上したものの上限は改善されませんでした。
この研究は、実行指向の自動化AI研究に新たな方向性を示しています。(出典:InFoQ)