Використовувати RL для безпосередньої оптимізації людських переваг — ця ідея досить чиста і набагато більш елегантна, ніж просто додавання класифікаторів.

Переглянути оригінал
MeNews
Дослідники розробили технології онлайн-навчання з підкріпленням для моделей генерації зображень
ME News Новини, 19 квітня (UTC+8), нещодавно дослідники розробили просту та зразково ефективну онлайн-методику підкріпленого навчання для тренованих моделей генерації зображень. Ця технологія вважається потенційною, керованою альтернативою технікам вільного керування класифікаторами, де сигнали керування можуть бути будь-якими скалярними нагородами, включаючи людські переваги. Оригінальний текст містить додаткову інформацію за посиланням у Твіттері. (Джерело: InFoQ)
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено