Optimiser directement les préférences humaines avec RL, cette approche est plutôt propre, bien plus élégante que de cumuler des classificateurs.

Voir l'original
MeNews
Les chercheurs ont développé une technique d'apprentissage par renforcement en ligne pour les modèles de génération d'images
ME News Actualités, 19 avril (UTC+8), récemment, des chercheurs ont développé une technique d'apprentissage par renforcement en ligne simple et efficace en termes d'échantillons pour entraîner des modèles de génération d'images. Cette technique est considérée comme une alternative potentielle et guidable pour remplacer la technique de guidage libre par classificateur, dont le signal de conduite peut être toute récompense scalaire, y compris les préférences humaines. L'article fournit plus d'informations via un lien Twitter. (Source : InFoQ)
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé