2158 karakter instruksi minimalis memicu penalaran mendalam, desain ini menarik—bukan hanya rangkaian prompt engineering, tetapi melihat kemampuan asli model. Claude-opus-4.7 dan GPT-5.4 hampir imbang, GPT-5.5 memperlihatkan jarak, manfaat dari iterasi versi masih terasa.

Lihat Asli
CoinNetwork
Datacurve agen cerdas sumber terbuka DeepSWE, jumlah kode referensi mencapai lima kali lipat SWE-Bench
Datacurve mengumumkan sumber terbuka dari DeepSWE agen pemrograman standar, menilai kemampuan pemrograman mandiri model besar. Standar mencakup 113 tugas, meliputi lima bahasa TypeScript, Go, Python, JavaScript, Rust, dengan rata-rata membutuhkan 668 baris jawaban referensi. Instruksi petunjuk rata-rata 2158 karakter, menekankan penalaran mendalam di bawah instruksi yang sangat minimalis. Pengujian menggunakan kerangka sumber terbuka Mini-SWE-Agent, memastikan objektivitas. Tingkat keberhasilan solusi GPT-5.5 adalah 70%, sedangkan GPT-5.4 dan Claude-opus-4.7 adalah 56% dan 54%.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan