Cursor mengungkapkan metode pelatihan "self-bootstrapping": menggunakan Composer lama untuk menyiapkan lingkungan bagi model baru, Terminal-Bench meningkat 14 poin

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Cursor mengungkapkan sebuah teknik pelatihan untuk rangkaian model Composer: menggunakan model generasi sebelumnya untuk secara otomatis membangun lingkungan yang dapat dijalankan untuk pembelajaran penguatan (RL) generasi berikutnya. Saat melatih Composer 2, Cursor menggunakan Composer 1.5 untuk menyelesaikan pekerjaan ini, yang disebut sebagai autoinstall. Pelatihan RL membutuhkan lingkungan kode yang dapat dijalankan. Jika lingkungan tidak dibangun dengan baik, model akan membuang token untuk memperbaiki bug, sehingga tidak belajar apa-apa; dalam kasus ekstrem, lingkungan sama sekali tidak berjalan, dan seluruh daya komputasi pelatihan terbuang sia-sia. autoinstall menyelesaikan masalah ini dalam dua langkah: langkah pertama, satu agen membaca dokumentasi dan konfigurasi kode, lalu mengusulkan 10 perintah verifikasi beserta output yang diharapkan; langkah kedua, agen lain mengambil 3 dari perintah tersebut, mulai dari nol untuk mengatur lingkungan hingga perintah berjalan lancar. Langkah kedua maksimal diulang 5 kali, jika semua gagal, lingkungan tersebut dibuang. Selama proses pengaturan lingkungan, agen secara aktif melengkapi dependensi yang hilang: memalsukan tabel database, membuat konfigurasi MinIO sebagai pengganti S3, menjalankan kontainer Docker sebagai layanan sidecar, bahkan menghasilkan gambar placeholder. Blog ini menggunakan proyek blockchain celo-org/celo-monorepo sebagai contoh untuk menunjukkan seluruh proses, setelah kegagalan pengaturan lingkungan di putaran pertama, putaran kedua agen secara mandiri membuat pengguna mock untuk melewati otentikasi, dan akhirnya pengujian berjalan lancar. Composer 2 meraih skor 61,7% di Terminal-Bench (standar pengujian kemampuan membangun lingkungan pengembangan model), lebih tinggi hampir 14 poin persentase dibandingkan Composer 1.5 yang mencapai 47,9%. Cursor menyatakan rencana masa depan untuk melibatkan Composer versi lama dalam lebih banyak tahap pelatihan, termasuk pra-pemrosesan data, manajemen jalannya, dan penyempurnaan arsitektur.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan