Resep pra-pelatihan semuanya dapat dicari secara otomatis, era penyesuaian parameter manual benar-benar akan berakhir

Lihat Asli
MeNews
Tim NLP Stanford menunjukkan kemajuan terbaru dalam penelitian AI otomatis
Stanford NLP menampilkan di ICML 2026 bagaimana mengubah pretraining dan post-training LLM menjadi lingkungan eksekusi melalui aktuator otomatis, memanfaatkan umpan balik eksekusi untuk meningkatkan efisiensi penelitian. Dua metode: pencarian evolusioner lebih unggul dari GRPO (69,4% vs 48,0%) dalam tugas post-training, dan formula yang ditemukan dalam pretraining lebih cepat daripada nanoGPT (19,7 menit vs 35,9 menit), keduanya diselesaikan dalam sepuluh putaran pencarian; Pembelajaran penguatan berbasis hadiah eksekusi mudah mengalami keruntuhan pola, meskipun meningkatkan hadiah rata-rata tetapi tidak meningkatkan batas atas. Pekerjaan ini menunjukkan arah penelitian AI otomatis berbasis eksekusi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan