Tencent Hunyuan esta vez integra los modelos LLM y de difusión en el mismo marco de aprendizaje por refuerzo, lanzando simultáneamente los algoritmos duales flow-dppo y drpo, una línea tecnológica bastante audaz.

Ver original
CoinNetwork
La noticia de CoinWorld, Tencent Hunyuan ha abierto el código de UniRL, integrando modelos de lenguaje grande y modelos de difusión en un mismo marco de entrenamiento de aprendizaje por refuerzo, permitiendo que modelos de generación de texto, lenguaje visual, imágenes y videos compartan un ciclo de entrenamiento unificado.
Para modelos de difusión y modelos de coincidencia de flujo, el equipo de Hunyuan ha lanzado el algoritmo flow-dppo, que utiliza la característica de distribución gaussiana en cada paso de la estrategia del modelo de coincidencia de flujo, para restringir directamente la actualización de la estrategia mediante la divergencia KL, y mediante una máscara de divergencia asimétrica para evitar que el modelo se desvíe demasiado, manteniendo una convergencia estable.
Para modelos de lenguaje grande, el equipo también ha lanzado el algoritmo drpo, que introduce un término de regularización cuadrático ponderado por ventaja en lugar de una truncación dura, asegurando que el modelo siga recibiendo señales de corrección de gradiente continuas incluso cuando se desvíe de la distribución objetivo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado