廣場
最新
熱門
新聞
我的主頁
發布
V4後訓練換代:OPD替代混合RL,十餘個專家模型蒸餾為一
ME News
2026-07-02 06:56:03
關注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 动察 Beating 監測,DeepSeek V4 後訓練方法論發生重大變化:V3.2 的 mixed RL 階段被 On-Policy Distillation(OPD,在線策略蒸餾)完全替代。 新流程分兩步。第一步,針對數學、代碼、Agent、指令跟隨等領域,在 V3.2 流水線基礎上分別訓練領域專家模型,每個專家先做微調再用 GRPO 做強化學習。第二步,用多教師 OPD 將十餘個專家的能力蒸餾進一個統一模型:學生在自身生成的軌跡上,對每個教師做 reverse KL 散度的全詞表 logit 蒸餾,通過 logits 級別的對齊將多個專家權重合併到統一參數空間,避免傳統 weight merging 和 mixed RL 常見的能力衝突。 報告還提出 Generative Reward Model(GRM,生成式獎勵模型):對於難以用規則驗證的任務,不再訓練傳統標量獎勵模型,而是用 rubric 引導的 RL 數據訓練 GRM,讓 actor 網絡同時承擔生成和評判能力,用少量多樣化人工標註即可泛化到複雜任務。 (來源:BlockBeats)
DEEPSEEK
-2.53%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
Gate股票轉倉功能上線
53.25萬 熱度
#
Circle股價重挫17%
416.28萬 熱度
#
預測世界盃葡萄牙VS克羅地亞
16.08萬 熱度
#
GateCard上線積分體系
11.96萬 熱度
#
非農數據倒計時
90.02萬 熱度
已置頂
網站地圖
V4後訓練換代:OPD替代混合RL,十餘個專家模型蒸餾為一