Windsurf menggunakan RL melatih sebuah model kecil khusus untuk menangkap bug, dan dalam evaluasi internal telah menyamai Claude Opus 4.6

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 15 April (UTC+8), menurut pemantauan Beating, perusahaan induk alat pemrograman AI Windsurf, Cognition AI, bekerja sama dengan perusahaan pelatihan AI Applied Compute, melatih model deteksi bug kode khusus bernama SWE-Check melalui pembelajaran penguatan. Model ini menganalisis perubahan kode pengguna saat ini (diff), secara otomatis menandai kemungkinan bug yang diperkenalkan dan memberikan saran perbaikan. Dalam evaluasi dengan distribusi data pelatihan yang sama, skor F1 SWE-Check telah menyamai Claude Opus 4.6 (selisih dari 0,09 menjadi 0); dalam evaluasi lintas distribusi, selisihnya berkurang dari 0,49 menjadi 0,29, meskipun masih tertinggal dari model terdepan tetapi menunjukkan kemajuan yang signifikan. Keunggulan utama terletak pada kecepatan dan biaya: kecepatan operasional SWE-Check lebih cepat satu tingkat dari model terdepan, dan biaya inferensinya juga jauh lebih rendah, sehingga dapat melakukan deteksi bug secara instan dan gratis di IDE, yang tidak dapat dilakukan oleh model besar seperti Opus 4.6 yang dipanggil langsung. Dua metode pelatihan yang patut diperhatikan adalah: 1. Linearitas reward (reward linearization): tim ingin mengoptimalkan metrik F-beta global, tetapi metrik ini tidak dapat langsung dipecah menjadi sampel tunggal. Mereka mengubahnya menjadi fungsi reward yang dapat dihitung per sampel melalui pendekatan linier orde satu, sehingga proses pelatihan dapat secara efektif meningkatkan metrik global. Versi awal memiliki tingkat false positive yang terlalu tinggi, sehingga tim mengubah beta dari 1 menjadi 0,5 untuk menekankan presisi. 2. Pelatihan pasca dua tahap: tahap pertama sepenuhnya memaksimalkan kemampuan deteksi bug tanpa penalti keterlambatan; tahap kedua memperkenalkan penalti keterlambatan berdasarkan distribusi statistik berapa lama pengguna nyata akan beralih setelah memicu deteksi. Metode bertahap ini lebih unggul daripada mengoptimalkan kedua tujuan secara bersamaan, karena yang kedua cenderung terjebak pada solusi lokal, misalnya belajar menjadi sangat cepat tetapi analisisnya dangkal. Versi pratinjau SWE-Check telah tersedia di Windsurf Next (tombol pintas cmd+U), dan selanjutnya akan masuk ke versi resmi Windsurf. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan