騰訊混元這波把LLM和擴散模型塞進同一個強化學習框架,flow-dppo和drpo雙算法齊發,技術路線挺敢想

查看原文
币 界 网
幣界網消息,騰訊混元開源UniRL,將大語言模型與擴散模型納入同一套強化學習後訓練框架,使文本、視覺語言、圖像和視頻生成模型得以共用統一訓練循環。針對擴散與流匹配模型,混元團隊推出flow-dppo算法,利用流匹配模型每步策略的高斯分布特性,直接用KL散度約束策略更新,並通過不對稱發散掩碼避免模型偏離過遠,保持穩定收斂。針對語言大模型,團隊同步推出drpo算法,引入優勢加權的二次正則項代替硬截斷,確保模型偏離目標分布時仍能獲得連續的梯度糾偏信號。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆
  • 已置頂