Cognition AI dan Applied Compute bekerja sama mengembangkan model SWE-Check, yang menggunakan pembelajaran penguatan untuk mendeteksi bug kode, dengan kecepatan dan biaya yang secara signifikan lebih baik daripada model terdepan. Meskipun dalam evaluasi jarak dengan Claude Opus 4.6 semakin mengecil, masih perlu optimasi lebih lanjut. Model ini menggunakan metode hadiah linier dan pelatihan dua tahap, bertujuan meningkatkan akurasi deteksi dan efisiensi operasional. Versi pratinjau telah diluncurkan di Windsurf Next.

MeNews

2026-04-15 12:40:17

Pembuatan abstrak sedang berlangsung

Berita ME News, 15 April (UTC+8), menurut pemantauan Beating, perusahaan induk alat pemrograman AI Windsurf, Cognition AI, bekerja sama dengan perusahaan pelatihan AI Applied Compute, melatih model deteksi bug kode khusus bernama SWE-Check melalui pembelajaran penguatan. Model ini menganalisis perubahan kode pengguna saat ini (diff), secara otomatis menandai kemungkinan bug yang diperkenalkan dan memberikan saran perbaikan. Dalam evaluasi dengan distribusi data pelatihan yang sama, skor F1 SWE-Check telah menyamai Claude Opus 4.6 (selisih dari 0,09 menjadi 0); dalam evaluasi lintas distribusi, selisihnya berkurang dari 0,49 menjadi 0,29, meskipun masih tertinggal dari model terdepan tetapi menunjukkan kemajuan yang signifikan. Keunggulan utama terletak pada kecepatan dan biaya: kecepatan operasional SWE-Check lebih cepat satu tingkat dari model terdepan, dan biaya inferensinya juga jauh lebih rendah, sehingga dapat melakukan deteksi bug secara instan dan gratis di IDE, yang tidak dapat dilakukan oleh model besar seperti Opus 4.6 yang dipanggil langsung. Dua metode pelatihan yang patut diperhatikan adalah: 1. Linearitas reward (reward linearization): tim ingin mengoptimalkan metrik F-beta global, tetapi metrik ini tidak dapat langsung dipecah menjadi sampel tunggal. Mereka mengubahnya menjadi fungsi reward yang dapat dihitung per sampel melalui pendekatan linier orde satu, sehingga proses pelatihan dapat secara efektif meningkatkan metrik global. Versi awal memiliki tingkat false positive yang terlalu tinggi, sehingga tim mengubah beta dari 1 menjadi 0,5 untuk menekankan presisi. 2. Pelatihan pasca dua tahap: tahap pertama sepenuhnya memaksimalkan kemampuan deteksi bug tanpa penalti keterlambatan; tahap kedua memperkenalkan penalti keterlambatan berdasarkan distribusi statistik berapa lama pengguna nyata akan beralih setelah memicu deteksi. Metode bertahap ini lebih unggul daripada mengoptimalkan kedua tujuan secara bersamaan, karena yang kedua cenderung terjebak pada solusi lokal, misalnya belajar menjadi sangat cepat tetapi analisisnya dangkal. Versi pratinjau SWE-Check telah tersedia di Windsurf Next (tombol pintas cmd+U), dan selanjutnya akan masuk ke versi resmi Windsurf. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GatePreIPOsLaunchesWithSpaceX
125.53K Popularitas
#
GateMarchTransparencyReport
46.53K Popularitas
#
IsraelStrikesIranBTCPlunges
29.84K Popularitas
#
GoldmanSachsFilesBitcoinIncomeETF
779K Popularitas
#
USBlocksStraitofHormuz
751.86K Popularitas

Sematkan

peta situs

Windsurf menggunakan RL melatih sebuah model kecil khusus untuk menangkap bug, dan dalam evaluasi internal telah menyamai Claude Opus 4.6

Topik Trending

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Sematkan