テンセントの混元は、この波でLLMと拡散モデルを同じ強化学習フレームワークに組み込み、flow-dppoとdrpoの二つのアルゴリズムを同時に展開し、技術的な路線はかなり大胆だ。

原文表示
CoinNetwork
币界网消息、腾讯混元オープンソースのUniRLは、大規模言語モデルと拡散モデルを同一の強化学習後の訓練フレームワークに統合し、テキスト、ビジュアル言語、画像、動画生成モデルが共通の訓練ループを共有できるようにした。拡散とフロー適合モデルに対して、混元チームはflow-dppoアルゴリズムを提案し、フロー適合モデルの各ステップのガウス分布特性を利用して、KLダイバージェンスによるポリシー更新を直接制約し、不対称発散マスクを通じてモデルの偏りを防ぎ、安定した収束を維持する。言語大規模モデルに対して、チームは同時にdrpoアルゴリズムを導入し、ハードカットの代わりに優位性加重二次正則化項を導入して、モデルが目標分布から逸脱した場合でも連続した勾配補正信号を得られるようにした。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし