UCLA+Princeton abre fuente SDPG, el mecanismo interno de profesores permite que los agentes enseñen a sí mismos, la inferencia matemática y la planificación en múltiples pasos superan directamente a GRPO

Ver original
CoinNetwork
Noticia de Coinjie.com, el algoritmo SDPG fue abierto por el equipo de Liu Yifeng, Zhang Shiyuan del Departamento de Ciencias de la Computación de la Universidad de California en Los Ángeles (UCLA) y Zhang Yifan de la Universidad de Princeton, con el objetivo de resolver el cuello de botella en la autoevolución de los agentes cuando carecen de la guía de un modelo de maestro externo.
El algoritmo utiliza un mecanismo de guía de maestro interno, aprovechando información privilegiada para generar rutas de razonamiento de alta calidad, mejorando la eficiencia y la tasa de éxito del entrenamiento en decisiones de múltiples pasos.
Los datos de evaluación muestran que SDPG supera a GRPO y varias algoritmos de línea base de autoestilización en tareas de razonamiento matemático y planificación de múltiples pasos.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado