Resep pra-pelatihan 19,7 menit vs 35,9 menit, sepuluh putaran pencarian selesai, penggemar efisiensi sangat gembira

Lihat Asli
MeNews
Tim NLP Stanford menunjukkan kemajuan terbaru dalam penelitian AI otomatis
NLP Stanford menampilkan di ICML 2026 bagaimana otomatisasi eksekutor mengubah pra-pelatihan dan pasca-pelatihan LLM menjadi lingkungan eksekusi, menggunakan umpan balik eksekusi untuk meningkatkan efisiensi penelitian. Dua metode: pencarian evolusioner lebih unggul dalam tugas pasca-pelatihan dibandingkan GRPO (69,4% vs 48,0%), dan formula yang ditemukan dalam pra-pelatihan lebih cepat daripada nanoGPT (19,7 menit vs 35,9 menit), keduanya diselesaikan dalam sepuluh putaran pencarian; pembelajaran penguatan berbasis hadiah eksekusi rentan terhadap mode kolaps, meskipun meningkatkan hadiah rata-rata tetapi tidak meningkatkan batas atas. Pekerjaan ini menunjukkan arah penelitian AI otomatis berbasis eksekusi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan