Google merilis ReasoningBank, agen cerdas mengekstrak strategi penalaran dari pengalaman keberhasilan dan kegagalan

robot
Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, menurut pemantauan Beating, Google Research merilis kerangka memori agen cerdas ReasoningBank, memungkinkan agen berbasis model besar untuk belajar terus-menerus setelah deployment. Pendekatan utamanya adalah mengekstrak pengalaman keberhasilan dan kegagalan dari tugas-tugas sebelumnya menjadi strategi penalaran umum yang disimpan dalam basis memori, sehingga saat menghadapi tugas serupa berikutnya, dapat melakukan pencarian terlebih dahulu sebelum eksekusi. Makalah terkait dipublikasikan di ICLR, kode telah dirilis open-source di GitHub. Sebelumnya, dua solusi utama memiliki kekurangan masing-masing: Synapse merekam jejak aksi lengkap dengan granularitas terlalu halus sehingga sulit dipindahkan; Agent Workflow Memory hanya mengekstrak alur kerja dari kasus keberhasilan. ReasoningBank melakukan dua perubahan: objek penyimpanan dari “urutan aksi” menjadi " pola penalaran", setiap memori berisi tiga bagian terstruktur: judul, deskripsi, dan isi; jejak kegagalan juga dimasukkan ke dalam pembelajaran. Model memanggil model besar lain untuk menilai sendiri jejak eksekusi, pengalaman kegagalan dipecah menjadi aturan pencegahan kesalahan, misalnya dari “lihat tombol Load More lalu klik” diupgrade menjadi “cek terlebih dahulu identifikasi halaman saat ini, hindari terjebak scrolling tak berujung, lalu klik load more”. Makalah ini juga mengusulkan Memory-aware Test-time Scaling (MaTTS), di mana selama proses penalaran, diberikan lebih banyak daya komputasi untuk mencoba berulang kali, dan proses eksplorasi disimpan dalam basis memori. Ekspansi paralel memungkinkan agen menjalankan beberapa jalur berbeda untuk tugas yang sama, melalui perbandingan diri untuk mengekstrak strategi yang lebih kokoh; ekspansi berurutan melakukan penyempurnaan berulang dalam satu jalur, dan penalaran tengah disimpan ke dalam basis memori. Pada benchmark WebArena untuk tugas browser dan SWE-Bench-Verified untuk tugas kode, menggunakan Gemini 2.5 Flash sebagai agen ReAct, ReasoningBank dibandingkan dengan baseline tanpa memori menunjukkan peningkatan keberhasilan sebesar 8,3% di WebArena dan 4,6% di SWE-Bench-Verified, dengan rata-rata mengurangi langkah sekitar 3 langkah per tugas; setelah menambahkan ekspansi paralel MaTTS (k=5), tingkat keberhasilan WebArena meningkat lagi 3 poin persen, dan jumlah langkah berkurang 0,4 langkah.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan