Sử dụng RL để tối ưu hóa sở thích của con người trực tiếp, ý tưởng này khá sạch sẽ, tinh tế hơn nhiều so với việc xếp chồng các bộ phân loại.

Xem bản gốc
MeNews
Các nhà nghiên cứu phát triển công nghệ học tăng cường trực tuyến cho mô hình tạo hình ảnh
ME News Tin tức, ngày 19 tháng 4 (UTC+8), gần đây, các nhà nghiên cứu đã phát triển một kỹ thuật học tăng cường trực tuyến đơn giản và hiệu quả mẫu cho mô hình tạo hình ảnh sau huấn luyện. Kỹ thuật này được xem là một phương án thay thế có thể hướng dẫn, để thay thế công nghệ hướng dẫn tự do của bộ phân loại, trong đó tín hiệu điều khiển có thể là bất kỳ phần thưởng vô hướng nào, bao gồm sở thích của con người. Bản gốc cung cấp thêm thông tin qua liên kết Twitter. (Nguồn: InFoQ)
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim