UCLA+Princeton abre fonte SDPG, mecanismo interno de professores que permite ao agente ensinar a si próprio, raciocínio matemático e planejamento em múltiplas etapas vencem diretamente o GRPO

Ver original
CoinNetwork
Notícias do site Coinjie, o algoritmo SDPG foi open source pela equipe de Gu Quan da Universidade da Califórnia, Los Angeles (UCLA), composta por Liu Yifeng, Zhang Shiyuan e por Zhang Yifan de Princeton, com o objetivo de resolver o gargalo de autoevolução de agentes inteligentes na ausência de orientação de modelos de professores externos. O algoritmo utiliza um mecanismo de orientação de professor interno, aproveitando informações privilegiadas para gerar rotas de raciocínio de alta qualidade, melhorando a eficiência de treinamento e a taxa de sucesso em decisões de múltiplos passos. Dados de avaliação mostram que o SDPG supera o GRPO e várias linhas de base de auto-destilação em tarefas de raciocínio matemático e planejamento de múltiplos passos.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado