Partner YC: Daripada bersaing dalam ukuran model, lebih baik AI menulis kode seperti ilmuwan dan berevolusi sendiri

robot
Pembuatan abstrak sedang berlangsung
Menurut pemantauan Beating, mitra Y Combinator Diana Hu menunjukkan di X bahwa, dibandingkan dengan sekadar memperbesar skala parameter, frontier di masa depan terletak pada membangun lapisan perangkat lunak tipis di atas model dasar, memungkinkan AI seperti programmer menulis sendiri aturan penyelesaian masalah (model dunia yang dapat dieksekusi). AI dapat terus menguji, memodifikasi, dan menyederhanakan kode berdasarkan hasil jalannya, tanpa perlu melakukan fine-tuning besar yang mahal pada model utama itu sendiri.

Jalur pembelajaran kode tanpa gradien membuktikan paradigma Pembelajaran Heuristik yang diusulkan oleh anggota inti pelatihan OpenAI,翁家翌, bulan lalu. Untuk membuat AI menguasai sebuah tugas, pembelajaran reinforcement tradisional membutuhkan ribuan kali debugging, memaksa pengalaman masuk ke dalam kotak hitam jaringan saraf, yang memakan energi besar dan mudah dilupakan. Sedangkan eksperimen翁家翌 menunjukkan bahwa tanpa mengubah parameter model utama, model besar dapat menulis kode Python sendiri, mencari bug, dan menyesuaikan aturan, hingga mampu menyelesaikan permainan Atari Breakout. Ini menunjukkan bahwa media pengetahuan sepenuhnya bisa berupa sistem kode yang dapat dibaca dan diuji manusia, bukan bobot jaringan saraf yang tidak bisa dipahami.

Menurut Paul Graham, salah satu pendiri YC, siklus menulis kode, memverifikasi, dan melakukan kompresi sangat mirip dengan kegiatan penelitian sehari-hari ilmuwan. Model besar tidak perlu membangun ulang otak, melainkan seperti ilmuwan, menulis hipotesis dalam bentuk kode untuk lingkungan baru, menjalankan kode untuk verifikasi eksperimen, dan menyaring aturan paling sederhana untuk menyelesaikan masalah. Proses mencari program paling sederhana ini juga merupakan standar akhir dalam mengukur efisiensi kecerdasan buatan ARC-AGI.

Keuntungan utama terletak pada fakta bahwa pembelajaran tanpa gradien dapat langsung memanfaatkan peningkatan kemampuan model besar di dasar. Semakin pintar model dasar, semakin kuat pula kode dan strategi yang dibuat oleh agen cerdas. Berdasarkan pelajaran pahit Richard Sutton, The Bitter Lesson, pembelajaran kode tanpa gradien sedang menggambarkan kurva S yang benar-benar baru. Dengan ledakan kemampuan kode dari model besar, jalur evolusi diri AI sedang membuka tirai paradigma kecerdasan buatan generasi berikutnya.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan