広場
最新
注目
ニュース
プロフィール
ポスト
CoinNetwork
2026-05-13 11:04:54
フォロー
币界网消息,Odyssey公司将强化学习(RLHF)引入视觉模型训练,发布了prowl框架,首次将RL引入世界模型的训练循环。
このフレームワークは、ゲーム環境で探索するRLエージェントを派遣し、モデルの幾何学、運動、視覚的一貫性、動作応答における失敗例を見つけ出し、これらのバグを訓練データとしてパッケージ化し、モデルにフィードバックします。
prowlは優先度対抗軌跡バッファ(PAT)を設計し、モデルが簡単なバグを修正した後、PATは自動的により難しい失敗例をプッシュします。
チームはMinecraftのMinerl環境でprowlを検証し、定量結果は、prowlが事前訓練のベースラインと比較して動作追従誤差を12.6%低減し、最も難しい上位10%のセグメントでは20.9%の低減を達成したことを示しています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateSquareMayTradingShare
1.57M 人気度
#
IsraelStrikesIranBTCPlunges
46.57K 人気度
#
#DailyPolymarketHotspot
924.27K 人気度
#
JaneStreetReducesBitcoinETFHoldings
99.53K 人気度
#
TrumpVisitsChinaMay13
26.08M 人気度
ピン留め
サイトマップ
币界网消息,Odyssey公司将强化学习(RLHF)引入视觉模型训练,发布了prowl框架,首次将RL引入世界模型的训练循环。
このフレームワークは、ゲーム環境で探索するRLエージェントを派遣し、モデルの幾何学、運動、視覚的一貫性、動作応答における失敗例を見つけ出し、これらのバグを訓練データとしてパッケージ化し、モデルにフィードバックします。
prowlは優先度対抗軌跡バッファ(PAT)を設計し、モデルが簡単なバグを修正した後、PATは自動的により難しい失敗例をプッシュします。
チームはMinecraftのMinerl環境でprowlを検証し、定量結果は、prowlが事前訓練のベースラインと比較して動作追従誤差を12.6%低減し、最も難しい上位10%のセグメントでは20.9%の低減を達成したことを示しています。