币界网消息,Odyssey公司将强化学习(RLHF)引入视觉模型训练,发布了prowl框架,首次将RL引入世界模型的训练循环。


このフレームワークは、ゲーム環境で探索するRLエージェントを派遣し、モデルの幾何学、運動、視覚的一貫性、動作応答における失敗例を見つけ出し、これらのバグを訓練データとしてパッケージ化し、モデルにフィードバックします。
prowlは優先度対抗軌跡バッファ(PAT)を設計し、モデルが簡単なバグを修正した後、PATは自動的により難しい失敗例をプッシュします。
チームはMinecraftのMinerl環境でprowlを検証し、定量結果は、prowlが事前訓練のベースラインと比較して動作追従誤差を12.6%低減し、最も難しい上位10%のセグメントでは20.9%の低減を達成したことを示しています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め