Daftar peringkat model besar lobster telah hadir! MinMax dan Kimi masuk tiga besar

robot
Pembuatan abstrak sedang berlangsung

Dalam minggu yang baru saja berlalu, “养龙虾” benar-benar menjadi tren!

Di depan kantor pusat Tencent, antre panjang untuk instalasi “龙虾” gratis, layanan penggantian “龙虾” di Xianyu berkisar dari puluhan hingga ratusan yuan, dan berbagai penyedia cloud besar meluncurkan tutorial dan layanan deployment satu klik. Di sini, “龙虾” bukan merujuk pada udang kecil yang kita makan, melainkan “OpenClaw”, di mana “claw” berarti cakar dan alat, cocok dengan sifat alatnya, dan maskot OpenClaw adalah seekor udang kecil yang lucu.

Definisi resmi dari situs resmi OpenClaw adalah “The AI that actually does things”, yang dapat diterjemahkan secara harfiah sebagai “AI yang benar-benar bekerja”. Ia dapat membantu membersihkan kotak masuk, mengirim email, mengelola jadwal, melakukan check-in penerbangan, dan lain-lain, cukup dengan mengirim perintah ke WhatsApp, Telegram, Feishu, DingTalk, dan aplikasi chat lainnya yang terhubung dengannya.

Sebenarnya, OpenClaw tidak bisa langsung digunakan, melainkan harus melalui proses deployment dan konfigurasi, serta secara bertahap menambahkan kemampuan saat digunakan sehari-hari, sehingga disebut sebagai “养龙虾”. Saat melakukan deployment OpenClaw, masalah pertama yang harus diselesaikan adalah memilih model besar mana yang akan menjadi “otaknya”. Untuk menjawab pertanyaan ini, situs PinchBench pun muncul.

PinchBench secara khusus melakukan pengujian benchmark terhadap model besar untuk OpenClaw, guna menilai kinerja model bahasa besar dalam tugas-tugas OpenClaw. Saat ini, situs resmi menunjukkan telah menguji 33 model besar utama di seluruh dunia.

Data menunjukkan, dari segi tingkat keberhasilan, Gemini-3-Flash-Preview dari Google menempati posisi teratas dengan 95,1%. Model besar domestik minimax-m2.1 dan kimi-k2.5 masuk tiga besar, dengan tingkat keberhasilan masing-masing 93,6% dan 93,4%, mengalahkan banyak model Claude.

Dalam hal biaya penyelesaian tugas, minimax-m2.1 dan kimi-k2.5 juga tampil cukup baik, dengan biaya lebih rendah dari Gemini-3-Flash-Preview sambil mempertahankan tingkat keberhasilan. Biaya keduanya masing-masing adalah 0,14 dan 0,20 dolar AS, sedangkan biaya Gemini adalah 0,72 dolar AS.

Selain itu, dalam kecepatan menyelesaikan tugas, minimax-m2.1 dan kimi-k2.5 juga mampu mencapai rata-rata di antara tujuh model besar dengan tingkat keberhasilan di atas 90%.

Tak heran jika pendiri OpenClaw, Peter Steinberger, dalam sebuah wawancara podcast pernah menyatakan bahwa dia menganggap Minimax 2.1 adalah model sumber terbuka terbaik saat ini (pada saat itu, dia belum menguji model terbaru Minimax dan Kimi).

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan