Sungguh luar biasa bahwa menambahkan hadiah bersama ke hal yang Anda coba selesaikan dalam RL akan membantu model belajar hadiah lainnya lebih cepat. Ini seperti membisikkan nasihat kepada model, beberapa kebijaksanaan umum.
Saya ingin tahu apakah Anda bisa mengotomatiskan ini
Lihat Asli