騰訊混元發布UniRL:統一多模態強化學習基礎設施

robot
摘要生成中
ME AI 消息,騰訊混元推出UniRL,一個支持統一多模態模型的強化學習基礎設施,並發布兩個新算法DRPO和Flow-DPPO。UniRL通過單個後訓練循環(生成→評分→優勢→更新→同步)覆蓋擴散/流匹配模型、LLM/VLM及統一多模態模型(如Hunyuan-Image 3和Bagel)。模型與算法作為獨立軸,可實現模型×算法的組合覆蓋。框架支持可插拔rollout引擎(訓練側/SGLang/vLLM-Omni)、FSDP2分片和三種部署模式。FlowDPPO針對流/擴散模型引入基於精確散度的信任域策略優化;DRPO為LLM RL提供平滑的優勢加權二次正則化方法。代碼已開源。(來源:AiHot)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆