Model K2 Thinking terbaru Kimi baru saja menghancurkan banyak tolok ukur industri. Kami berbicara tentang lompatan serius dalam kekuatan penalaran dan kemampuan pemrograman di sini.

Angka-angkanya? Cukup gila:
- Mencapai 44,9% pada HLE saat dilengkapi dengan alat
- Mencapai 60,2% di BrowseComp
- Mendarat 71,3% pada SWE-Bench Terverifikasi

Skor ini penting karena mereka mengukur seberapa baik AI menangani pemecahan masalah yang kompleks dan tugas tingkat agen. Bagi siapa pun yang membangun di ruang ini, kemajuan semacam ini dapat mengubah cara kita mendekati alur kerja pengembangan otomatis.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

6 Suka