Tencent HunyuanがUniRLを発表:統一されたマルチモーダル強化学習基盤

robot
概要作成中
ME AI メッセージ、テンセントの混元がUniRLを発表、統一されたマルチモーダルモデルをサポートする強化学習基盤を提供し、2つの新しいアルゴリズムDRPOとFlow-DPPOをリリース。UniRLは単一の後訓練ループ(生成→評価→アドバンテージ→更新→同期)を通じて、拡散/フローモデル、LLM/VLM、および統一マルチモーダルモデル(例:Hunyuan-Image 3やBagel)をカバー。モデルとアルゴリズムは独立した軸として、モデル×アルゴリズムの組み合わせカバレッジを実現。フレームワークはプラグイン可能なロールアウトエンジン(訓練側/SGLang/vLLM-Omni)、FSDP2シャーディング、3つの展開モードをサポート。FlowDPPOは流/拡散モデルに対して、正確な散度に基づく信頼域戦略最適化を導入;DRPOはLLM RLに対して、平滑なアドバンテージ重み付け二次正則化手法を提供。コードは既にオープンソース化。(出典:AiHot)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし