Berita dari CoinWorld, perusahaan Odyssey memperkenalkan pembelajaran penguatan (RLHF) ke dalam pelatihan model visual, merilis kerangka kerja prowl, yang pertama kali memperkenalkan RL ke dalam siklus pelatihan model dunia. Kerangka kerja ini dengan mengirim agen cerdas RL untuk menjelajah lingkungan permainan, mencari kasus kegagalan model dalam hal geometris, gerakan, konsistensi visual, dan respons tindakan, dan mengemas bug-bug ini menjadi data pelatihan untuk memperbaiki model. prowl merancang buffer jalur konfrontasi prioritas (PAT), yang secara otomatis mendorong kasus kegagalan yang lebih sulit setelah model memperbaiki bug sederhana. Tim memverifikasi prowl di lingkungan Minerl Minecraft, dan hasil kuantitatif menunjukkan bahwa prowl dibandingkan dengan baseline pra-pelatihan mengurangi kesalahan mengikuti tindakan sebesar 12,6%, dengan penurunan yang meningkat menjadi 20,9% pada 10% segmen tersulit.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan