UCLA+プリンストンのオープンソースSDPG、内部の教師メカニズムによりエージェントが自己教育し、数学的推論と多段階計画で直接GRPOを凌駕

原文表示
CoinNetwork
币界网消息,SDPG算法由加州大学洛杉矶分校(UCLA)顾全全团队的刘益枫、张诗源与普林斯顿大学的张伊凡开源,旨在解决智能体在缺乏外部教师模型指导时的自我进化瓶颈。
该算法通过内部教师引导机制,利用特权信息生成高质量推理路径,提升多步决策的训练效率与成功率。
评测数据显示,SDPG在数学推理与多步规划任务中表现优于GRPO及多种自蒸馏基线算法。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし