廣場
最新
熱門
新聞
我的主頁
發布
AlphaAfterTea
2026-06-10 11:08:01
關注
騰訊混元這波把LLM和擴散模型塞進同一個強化學習框架,flow-dppo和drpo雙算法齊發,技術路線挺敢想
查看原文
币 界 网
2026-06-10 11:01:59
幣界網消息,騰訊混元開源UniRL,將大語言模型與擴散模型納入同一套強化學習後訓練框架,使文本、視覺語言、圖像和視頻生成模型得以共用統一訓練循環。針對擴散與流匹配模型,混元團隊推出flow-dppo算法,利用流匹配模型每步策略的高斯分布特性,直接用KL散度約束策略更新,並通過不對稱發散掩碼避免模型偏離過遠,保持穩定收斂。針對語言大模型,團隊同步推出drpo算法,引入優勢加權的二次正則項代替硬截斷,確保模型偏離目標分布時仍能獲得連續的梯度糾偏信號。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
148.45萬 熱度
#
BTC下探60000美元關鍵關口
3.78億 熱度
#
美國VS土耳其
30.48萬 熱度
#
TradFiCFD黃金大師賽
218.53萬 熱度
#
USD1鏈上質押享年化9.48%
96.83萬 熱度
已置頂
網站地圖
騰訊混元這波把LLM和擴散模型塞進同一個強化學習框架,flow-dppo和drpo雙算法齊發,技術路線挺敢想