Peringatan keruntuhan pola: Hadiah RL meningkat tetapi batasnya tidak bergerak, ini harus menjadi poin utama

Lihat Asli
MeNews
Tim NLP Stanford menunjukkan kemajuan terbaru dalam penelitian AI otomatis
NLP Stanford menampilkan di ICML 2026 bagaimana otomatisasi eksekutor mengubah pra-pelatihan dan pasca-pelatihan LLM menjadi lingkungan eksekusi, menggunakan umpan balik eksekusi untuk meningkatkan efisiensi penelitian. Dua metode: pencarian evolusioner lebih unggul dari GRPO (69,4% vs 48,0%) dalam tugas pasca-pelatihan, dan formula yang ditemukan dalam pra-pelatihan lebih cepat daripada nanoGPT (19,7 menit vs 35,9 menit), keduanya diselesaikan dalam sepuluh putaran pencarian; pembelajaran penguatan berbasis hadiah eksekusi mudah mengalami keruntuhan pola, meskipun meningkatkan hadiah rata-rata tetapi tidak meningkatkan batas atas. Pekerjaan ini menunjukkan arah penelitian AI otomatis berbasis eksekusi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan