Zhipu GLM-5.2 menduduki puncak sebagai sumber terbuka nomor satu DeepSWE: menyelesaikan 44% tugas pengembangan yang kompleks, mengalahkan model tertutup utama

robot
Pembuatan abstrak sedang berlangsung
Menurut pemantauan Beating, model AI sumber terbuka Zhipu GLM-5.2 resmi bergabung dengan standar rekayasa perangkat lunak jangka panjang DeepSWE. Dalam mode kekuatan pemikiran maksimal, tingkat keberhasilan tugas pengembangan yang kompleks mencapai 44%, menempati peringkat pertama di antara model sumber terbuka. Dibandingkan dengan Kimi K2.7 Code yang sebelumnya masuk daftar, tingkat keberhasilannya 13 poin persentase lebih tinggi.

GLM-5.2 memiliki biaya rata-rata sebesar 3,92 dolar AS untuk setiap tugas, sedikit lebih tinggi dari Kimi K2.7 Code yang sebesar 2,82 dolar AS, tetapi tingkat keberhasilannya melampaui beberapa model tertutup utama lainnya dalam konfigurasi pemikiran tertentu, termasuk Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), dan Claude Opus 4.8 [low] (41%).

Penyelenggara evaluasi, Datacurve, merancang standar DeepSWE khusus untuk menguji kemampuan AI dalam menyelesaikan tugas jangka panjang. Pengujian mencakup 113 masalah pemrograman nyata, meliputi 5 bahasa. Berbeda dengan pengujian tradisional yang hanya mengubah satu bagian kode, DeepSWE menuntut AI untuk berkolaborasi dalam mengubah beberapa file, dengan rata-rata memperbaiki lebih dari 600 baris kode. Pengujian dilakukan dalam wadah terisolasi, dengan pembatasan ketat pada sumber daya CPU dan memori.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan