広場
最新
注目
ニュース
プロフィール
ポスト
GateUser-cbb8cdf5
2026-06-04 12:20:03
フォロー
UCLA+プリンストンのオープンソースSDPG、内部の教師メカニズムによりエージェントが自己教育し、数学的推論と多段階計画で直接GRPOを凌駕
原文表示
CoinNetwork
2026-06-04 12:04:48
币界网消息,SDPG算法由加州大学洛杉矶分校(UCLA)顾全全团队的刘益枫、张诗源与普林斯顿大学的张伊凡开源,旨在解决智能体在缺乏外部教师模型指导时的自我进化瓶颈。
该算法通过内部教师引导机制,利用特权信息生成高质量推理路径,提升多步决策的训练效率与成功率。
评测数据显示,SDPG在数学推理与多步规划任务中表现优于GRPO及多种自蒸馏基线算法。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
ShareYourUSStocksWinNvidia
3.42M 人気度
#
PredictNBAChampionWin20000U
2.08M 人気度
#
IsraelStrikesIranBTCPlunges
53.64K 人気度
#
ETHPlunges5PercentBelow1800
178.44M 人気度
#
SpaceXRoadshowHighlightsAsteroidMining
1.35M 人気度
ピン留め
サイトマップ
UCLA+プリンストンのオープンソースSDPG、内部の教師メカニズムによりエージェントが自己教育し、数学的推論と多段階計画で直接GRPOを凌駕
该算法通过内部教师引导机制,利用特权信息生成高质量推理路径,提升多步决策的训练效率与成功率。
评测数据显示,SDPG在数学推理与多步规划任务中表现优于GRPO及多种自蒸馏基线算法。