Model K2 Thinking terbaru Kimi baru saja menghancurkan banyak tolok ukur industri. Kami berbicara tentang lompatan serius dalam kekuatan penalaran dan kemampuan pemrograman di sini.
Angka-angkanya? Cukup gila: - Mencapai 44,9% pada HLE saat dilengkapi dengan alat - Mencapai 60,2% di BrowseComp - Mendarat 71,3% pada SWE-Bench Terverifikasi
Skor ini penting karena mereka mengukur seberapa baik AI menangani pemecahan masalah yang kompleks dan tugas tingkat agen. Bagi siapa pun yang membangun di ruang ini, kemajuan semacam ini dapat mengubah cara kita mendekati alur kerja pengembangan otomatis.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
6 Suka
Hadiah
6
4
Posting ulang
Bagikan
Komentar
0/400
GateUser-00be86fc
· 7jam yang lalu
Saatnya masuk posisi
Lihat AsliBalas0
LiquidatedThrice
· 8jam yang lalu
Orang-orang, jika terus seperti ini, AI akan merebut pekerjaan saya.
Lihat AsliBalas0
AirdropFatigue
· 8jam yang lalu
Sangat hebat, tetapi tetap tidak sebaik GPT4.
Lihat AsliBalas0
SatoshiLeftOnRead
· 8jam yang lalu
bruh... kimi benar-benar di sini pamer kepada semua orang
Model K2 Thinking terbaru Kimi baru saja menghancurkan banyak tolok ukur industri. Kami berbicara tentang lompatan serius dalam kekuatan penalaran dan kemampuan pemrograman di sini.
Angka-angkanya? Cukup gila:
- Mencapai 44,9% pada HLE saat dilengkapi dengan alat
- Mencapai 60,2% di BrowseComp
- Mendarat 71,3% pada SWE-Bench Terverifikasi
Skor ini penting karena mereka mengukur seberapa baik AI menangani pemecahan masalah yang kompleks dan tugas tingkat agen. Bagi siapa pun yang membangun di ruang ini, kemajuan semacam ini dapat mengubah cara kita mendekati alur kerja pengembangan otomatis.