Tencent Hunyuan lanza UniRL: infraestructura unificada de aprendizaje por refuerzo multimodal

robot
Generación de resúmenes en curso
ME AI Mensaje, Tencent Hunyuan lanza UniRL, una infraestructura de aprendizaje por refuerzo que soporta modelos multimodales unificados, y presenta dos nuevos algoritmos DRPO y Flow-DPPO. UniRL cubre modelos de difusión/matching de flujo, LLM/VLM y modelos multimodales unificados (como Hunyuan-Image 3 y Bagel) mediante un ciclo de entrenamiento posterior único (generar→evaluar→ventaja→actualizar→sincronizar). Los modelos y algoritmos se consideran ejes independientes, permitiendo combinaciones de modelos×algoritmos. El marco soporta motores de rollout modulares (lado de entrenamiento/SGLang/vLLM-Omni), particionado FSDP2 y tres modos de despliegue. FlowDPPO introduce una estrategia de optimización basada en confianza con divergencia precisa para modelos de flujo/difusión; DRPO ofrece un método de regularización cuadrática ponderada por ventaja suave para RL con LLM. El código ya está de código abierto. (Fuente: AiHot)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado