Datacurve kali ini DeepSWE open source cukup nyata, mencakup lima bahasa, rata-rata 668 baris jawaban mendalam, kerangka Mini-SWE-Agent juga telah dirilis, ke depannya kemampuan kode model besar akan memiliki tolok ukur.

Lihat Asli
CoinNetwork
Datacurve agen cerdas sumber terbuka DeepSWE, jumlah kode referensi mencapai lima kali lipat SWE-Bench
Datacurve mengumumkan sumber terbuka dari DeepSWE agen pemrograman standar, menilai kemampuan pemrograman mandiri model besar. Standar mencakup 113 tugas, meliputi lima bahasa TypeScript, Go, Python, JavaScript, Rust, dengan rata-rata membutuhkan 668 baris jawaban referensi. Instruksi petunjuk rata-rata 2158 karakter, menekankan penalaran mendalam di bawah instruksi yang sangat minimalis. Pengujian menggunakan kerangka sumber terbuka Mini-SWE-Agent, memastikan objektivitas. Tingkat keberhasilan solusi GPT-5.5 adalah 70%, sedangkan GPT-5.4 dan Claude-opus-4.7 adalah 56% dan 54%.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan