Tim NLP Stanford menunjukkan kemajuan terbaru dalam penelitian AI otomatis

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 15 Mei (UTC+8), tim NLP Stanford memamerkan pekerjaan baru dalam penelitian AI otomatis di konferensi ICML 2026, melalui pembangunan eksekutor otomatis, mengubah pra-pelatihan dan pasca-pelatihan LLM menjadi lingkungan eksekusi, dan memanfaatkan umpan balik eksekusi untuk meningkatkan efektivitas penelitian. Penelitian menganalisis dua metode: pencarian evolusi memiliki efisiensi sampel yang tinggi, metode yang ditemukan dalam tugas pasca-pelatihan lebih baik dari baseline GRPO (69,4% dibandingkan 48,0%), formula yang ditemukan dalam tugas pra-pelatihan lebih baik dari baseline nanoGPT (19,7 menit dibandingkan 35,9 menit), semuanya diselesaikan dalam sepuluh siklus pencarian; sementara pembelajaran penguatan berbasis hadiah eksekusi menghadapi masalah keruntuhan pola, meskipun meningkatkan hadiah rata-rata tetapi tidak meningkatkan batas atas. Pekerjaan ini memberikan arah untuk penelitian AI otomatis yang berorientasi eksekusi. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 8
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
MintColdBrew
· 2jam yang lalu
Pekerjaan ICML 2026 sudah begitu keras.
Lihat AsliBalas0
QuietRugAlarm
· 3jam yang lalu
19 menit vs 36 menit, nanoGPT dikalahkan dengan telak
Lihat AsliBalas0
Half-MeltedIceCreamPosition
· 3jam yang lalu
Evolusi pencarian mengalahkan GRPO, peningkatan efisiensinya agak gila
Lihat AsliBalas0
AirdropOnTheDune
· 3jam yang lalu
Lingkungan eksekusi terintegrasi pra-pelatihan + pasca-pelatihan, apakah ini untuk melakukan iterasi mandiri AI?
Lihat AsliBalas0
NodeUnderTheAurora
· 3jam yang lalu
Masalah keruntuhan pola sangat nyata, hacking hadiah sudah menjadi topik lama yang dibahas kembali
Lihat AsliBalas0
SeaSaltMarketMakingNotes
· 3jam yang lalu
Sepuluh putaran pencarian sudah konvergen, efisiensi sampel lebih tinggi dari yang saya bayangkan
Lihat AsliBalas0
YieldNotYell
· 3jam yang lalu
Umpan balik eksekusi tertutup adalah inti dari otomatisasi
Lihat AsliBalas0
  • Disematkan