Stanford NLP menampilkan di ICML 2026 bagaimana mengubah pretraining dan post-training LLM menjadi lingkungan eksekusi melalui aktuator otomatis, memanfaatkan umpan balik eksekusi untuk meningkatkan efisiensi penelitian. Dua metode: pencarian evolusioner lebih unggul dari GRPO (69,4% vs 48,0%) dalam tugas post-training, dan formula yang ditemukan dalam pretraining lebih cepat daripada nanoGPT (19,7 menit vs 35,9 menit), keduanya diselesaikan dalam sepuluh putaran pencarian; Pembelajaran penguatan berbasis hadiah eksekusi mudah mengalami keruntuhan pola, meskipun meningkatkan hadiah rata-rata tetapi tidak meningkatkan batas atas. Pekerjaan ini menunjukkan arah penelitian AI otomatis berbasis eksekusi.

MeNews

2026-05-20 10:32:22

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 15 Mei (UTC+8), tim NLP Stanford memamerkan pekerjaan baru dalam penelitian AI otomatis di konferensi ICML 2026, melalui pembangunan eksekutor otomatis, mengubah pra-pelatihan dan pasca-pelatihan LLM menjadi lingkungan eksekusi, dan memanfaatkan umpan balik eksekusi untuk meningkatkan efektivitas penelitian. Penelitian menganalisis dua metode: pencarian evolusi memiliki efisiensi sampel yang tinggi, metode yang ditemukan dalam tugas pasca-pelatihan lebih baik dari baseline GRPO (69,4% dibandingkan 48,0%), formula yang ditemukan dalam tugas pra-pelatihan lebih baik dari baseline nanoGPT (19,7 menit dibandingkan 35,9 menit), semuanya diselesaikan dalam sepuluh siklus pencarian; sementara pembelajaran penguatan berbasis hadiah eksekusi menghadapi masalah keruntuhan pola, meskipun meningkatkan hadiah rata-rata tetapi tidak meningkatkan batas atas. Pekerjaan ini memberikan arah untuk penelitian AI otomatis yang berorientasi eksekusi. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

11 Suka

Hadiah
11
7
8
Bagikan

Komentar

Tambahkan komentar

MintColdBrew

· 2jam yang lalu

Pekerjaan ICML 2026 sudah begitu keras.

Lihat AsliBalas0

QuietRugAlarm

· 3jam yang lalu

19 menit vs 36 menit, nanoGPT dikalahkan dengan telak

Lihat AsliBalas0

Half-MeltedIceCreamPosition

· 3jam yang lalu

Evolusi pencarian mengalahkan GRPO, peningkatan efisiensinya agak gila

Lihat AsliBalas0

AirdropOnTheDune

· 3jam yang lalu

Lingkungan eksekusi terintegrasi pra-pelatihan + pasca-pelatihan, apakah ini untuk melakukan iterasi mandiri AI?

Lihat AsliBalas0

NodeUnderTheAurora

· 3jam yang lalu

Masalah keruntuhan pola sangat nyata, hacking hadiah sudah menjadi topik lama yang dibahas kembali

Lihat AsliBalas0

SeaSaltMarketMakingNotes

· 3jam yang lalu

Sepuluh putaran pencarian sudah konvergen, efisiensi sampel lebih tinggi dari yang saya bayangkan

Lihat AsliBalas0

YieldNotYell

· 3jam yang lalu

Umpan balik eksekusi tertutup adalah inti dari otomatisasi

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
192.21K Popularitas
#
30YearTreasuryYieldBreaks5%
363.4K Popularitas
#
IsraelStrikesIranBTCPlunges
48.28K Popularitas
#
#DailyPolymarketHotspot
1M Popularitas
#
RWAMarketCapExceeds65Billion
8.75M Popularitas

Disematkan

peta situs

Tim NLP Stanford menunjukkan kemajuan terbaru dalam penelitian AI otomatis

Topik Trending

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Disematkan