UCLA+Princeton abre código aberto SDPG, mecanismo interno de professores que permite que o agente ensine a si mesmo, raciocínio matemático e planejamento em múltiplas etapas derrotam diretamente o GRPO

Ver original
CoinNetwork
Notícias do site Coinjie, o algoritmo SDPG foi open source pela equipe de Guangquan Liu, Zhang Shiyuan do Departamento de Ciência da Computação da Universidade da Califórnia, Los Angeles (UCLA), e Zhang Yifan da Universidade de Princeton, com o objetivo de resolver o gargalo de autoevolução de agentes inteligentes na ausência de orientação de modelos de professores externos. O algoritmo utiliza um mecanismo de orientação de professor interno, aproveitando informações privilegiadas para gerar rotas de raciocínio de alta qualidade, melhorando a eficiência de treinamento e a taxa de sucesso em decisões de múltiplos passos. Dados de avaliação mostram que o SDPG supera o GRPO e várias linhas de base de auto-ensejamento em tarefas de raciocínio matemático e planejamento de múltiplos passos.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado