Menggunakan RL untuk langsung mengoptimalkan preferensi manusia, ide ini cukup bersih, jauh lebih elegan daripada menumpuk classifier.

Lihat Asli
MeNews
Para peneliti mengembangkan teknologi pembelajaran penguatan daring untuk model generasi gambar
ME News Berita, 19 April (UTC+8), Baru-baru ini, para peneliti mengembangkan teknik pembelajaran penguatan daring yang sederhana dan efisien sampel untuk model generasi gambar yang telah dilatih. Teknik ini dipandang sebagai alternatif yang mungkin dan dapat diarahkan, untuk menggantikan teknologi panduan bebas pengklasifikasi, di mana sinyal penggeraknya bisa berupa hadiah skalar apa pun, termasuk preferensi manusia. Informasi lebih lanjut disediakan melalui tautan Twitter. (Sumber: InFoQ)
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan