UCLA+ Princeton open source SDPG, internal teacher mechanism allows agents to teach themselves, mathematical reasoning and multi-step planning directly outperform GRPO

Voir l'original
CoinNetwork
CoinWorld消息,SDPG算法由加州大学洛杉矶分校(UCLA)顾全全团队的刘益枫、张诗源与普林斯顿大学的张伊凡开源,旨在解决智能体在缺乏外部教师模型指导时的自我进化瓶颈。该算法通过内部教师引导机制,利用特权信息生成高质量推理路径,提升多步决策的训练效率与成功率。评测数据显示,SDPG在数学推理与多步规划任务中表现优于GRPO及多种自蒸馏基线算法。
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé