用RL直接优化人類偏好,這思路挺乾淨,比堆分類器優雅多了

查看原文
ME News
研究人員為圖像生成模型開發線上強化學習技術
ME News 消息,4 月 19 日(UTC+8),近日,研究人员为训练后的图像生成模型开发了一种简单且样本高效的在线强化学习技术。该技术被视为一种可能的、可引导的替代方案,用于替代分类器自由引导技术,其驱动信号可以是任何标量奖励,包括人类偏好。原文通过推特链接提供了更多信息。(来源:InFoQ)
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆