UCLA+普林斯顿開源SDPG,內部教師機制讓智能體自己教自己,數學推理和多步規劃直接幹翻GRPO

查看原文
币 界 网
幣界網消息,SDPG算法由加州大學洛杉磯分校(UCLA)顧全全團隊的劉益枫、張詩源與普林斯頓大學的張伊凡開源,旨在解決智能體在缺乏外部教師模型指導時的自我進化瓶頸。該算法通過內部教師引導機制,利用特權信息生成高質量推理路徑,提升多步決策的訓練效率與成功率。評測數據顯示,SDPG在數學推理與多步規劃任務中表現優於GRPO及多種自蒸馏基線算法。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆