Использовать RL для прямой оптимизации человеческих предпочтений — эта идея довольно чистая и гораздо более элегантная, чем наращивание классификаторов.

Посмотреть Оригинал
MeNews
Исследователи разработали онлайн-техники обучения с подкреплением для моделей генерации изображений
ME News Новости, 19 апреля (UTC+8), недавно исследователи разработали простую и высокоэффективную по образцам онлайн-методику обучения с подкреплением для обученных моделей генерации изображений. Эта техника рассматривается как возможная, управляемая альтернатива технике свободного руководства классификатора, при которой управляющий сигнал может быть любым скалярным вознаграждением, включая предпочтения человека. Оригинальный текст содержит дополнительную информацию по ссылке в Твиттере. (Источник: InFoQ)
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено