Optimizar directamente las preferencias humanas con RL, esta idea es bastante limpia, mucho más elegante que apilar clasificadores.

Ver original
MeNews
Los investigadores desarrollan técnicas de aprendizaje por refuerzo en línea para modelos de generación de imágenes
ME News Noticias, 19 de abril (UTC+8), recientemente, los investigadores desarrollaron una técnica sencilla y eficiente en muestras para el aprendizaje por refuerzo en línea para modelos de generación de imágenes entrenados. La técnica se considera una posible alternativa guiada para reemplazar las técnicas de guía libre de clasificadores, cuyo señal de impulso puede ser cualquier recompensa escalar, incluyendo preferencias humanas. La fuente proporciona más información a través de un enlace de Twitter. (Fuente: InFoQ)
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado