Tim tim Stanford mengusulkan RAGEN-2, menggunakan regularizer informasi mutual untuk mengatasi masalah kekosongan tindakan pada agen RL

2026-04-09 17:21:17

Berita ME News, 9 April (UTC+8), Baru-baru ini, sebuah studi bernama RAGEN-2 menunjukkan bahwa agen yang dilatih dengan pembelajaran penguatan meskipun tampak berperilaku beragam, sebenarnya hanya mengulang pola, yang menyebabkan entropi tinggi tetapi hampir nol informasi mutual, yaitu model belajar untuk berbicara kosong dengan berbagai cara. Untuk mengatasi masalah ini, para peneliti mengusulkan sebuah regularizer yang berbasis persepsi informasi mutual. Studi ini dilakukan bersama oleh @wzenus, @ManlingLi_, @YejinChoinka, dan Fei-Fei Li. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.