GLM-5.1 Membuat model sumber terbuka pertama kali kokoh dalam tugas proyek jangka panjang

robot
Pembuatan abstrak sedang berlangsung

OpenRouter mulai serius dalam tugas jangka panjang

OpenRouter mengumumkan integrasi GLM-5.1, mengalihkan topik dari “berapa besar parameter” ke “seberapa lama bisa terus bekerja”. GLM-5.1 menjalankan optimasi basis data vektor selama 8 jam tanpa pengawasan, melakukan lebih dari 600 iterasi, dan meningkatkan performa 6 kali lipat. Ini mengubah posisi model open source: tidak lagi sekadar pengganti murah, tetapi mungkin lebih mampu bersaing dalam alur kerja rekayasa—terutama karena model tertutup seperti Claude Opus 4.6 sering kali berhenti berkembang setelah beberapa percobaan. Tim Hugging Face mendukung promosi ini, tetapi tweet mereka hampir tidak menyebutkan biaya komputasi.

Respon tetap seperti biasa, dua kutub:

  • Pembuat produk di Twitter menyambut baik, LMSYS dan Ollama menekankan lisensi MIT yang mudah diubah dan disesuaikan;
  • Reddit merasa “tanpa evaluasi independen, ini cuma promosi”;
  • Vercel dan Together.ai menunjukkan bahwa ekosistem deployment memang tertarik pada alat Agent;
  • Ketidakpastian geopolitik meningkat, beberapa perusahaan mungkin mempercepat pengelolaan open source sendiri untuk menghindari risiko kepatuhan.

Beberapa poin penting yang patut diperhatikan:

  • API tertutup masih lebih murah: GLM-5.1 dengan 754 miliar parameter, membutuhkan hardware inference yang sangat tinggi, tidak terjangkau oleh perusahaan menengah. Tapi ini mungkin mendorong inovasi di bidang Serving.
  • Daftar peringkat menarik, inference tidak stabil: SWE-Bench Pro meraih 58.4% terlihat bagus, tapi GPQA Diamond hanya 86.2%, Gemini 94.3%. Label “peringkat ketiga dunia” ini, tim yang mengembangkan aplikasi umum mungkin tidak akan tertarik.
  • Pengembang independen lebih cepat mencoba: Setelah terintegrasi dengan OpenRouter, hambatan eksperimen berkurang, berpotensi mengancam posisi Anthropic dalam hal “keamanan dan penggunaan alat Agent”.

Kesenjangan antara skor benchmark dan implementasi nyata

Istilah “tingkat keberhasilan menyelesaikan tugas jangka panjang” memicu perdebatan. Demonstrasi Z.ai (misalnya, mengatur desktop Linux sendiri) dan skor GLM-5.1 di Terminal-Bench 2.0 sebesar 63.5% (setelah optimasi 69%) tidak cocok. Ada jarak antara promosi dan pengujian nyata: promosi membutuhkan hype, tetapi perusahaan menginginkan contoh yang bisa diverifikasi, seperti integrasi robot sinyal Bella Protocol. VentureBeat dan Computerworld menggunakan sudut pandang “hari kerja 8 jam” untuk meningkatkan ekspektasi investor. Jumlah parameter menjadi kurang penting dibandingkan “kemampuan menghasilkan output secara berkelanjutan”—GLM-5.1 menyerah di aspek ini, tetapi biaya operasionalnya juga lebih tinggi.

Posisi Bukti dan Sumber Dampak terhadap Industri Cara Menilai
Optimis open source Blog Z.ai: Vector-DB-Bench 21.5k QPS; CEO Hugging Face dukung Memperkuat narasi “AI Agenik demokratisasi”, mempercepat investasi di open source Nilai sebenarnya terletak pada kustomisasi untuk industri tertentu (misalnya keuangan), bukan untuk umum
Skeptis terhadap closed source SWE-Bench Pro 58.4% vs. Claude 57.3%; jarak Terminal-Bench Memperdalam kekhawatiran tentang keandalan open source, migrasi dari GPT akan lebih lambat Perusahaan kemungkinan akan mengadopsi dua strategi: gunakan GLM untuk audit kode dan lain-lain
Praktis untuk perusahaan Integrasi OpenRouter/Vercel; robot transaksi Bella Protocol aktif Fokus kembali ke biaya deployment, RFP cenderung lisensi MIT Regulasi industri akan mempercepat self-hosted AI, tekanan pada cloud tertutup semakin besar
Pihak yang murni mengikuti daftar peringkat Benchmark Hugging Face; Artificial Analysis Intelligence Index 51/100 Mengkritik “output terlalu panjang, harga terlalu mahal ($4.40/juta token output)” Pendekatan yang benar: fokus pada optimasi Serving, jangan terlalu kejar peringkat

Rute penyebaran ini—dari tweet ke retweet dari para ahli, lalu diikuti media—memaksa laboratorium tertutup menjelaskan kenapa biaya mereka begitu tinggi. Anthropic mungkin akan merilis “versi lebih cepat” (misalnya Claude Opus 4.6 Fast) sebagai respons. Pasar terbiasa memperhatikan SOTA, tetapi sering meremehkan potensi fragmentasi pasar akibat faktor geopolitik. GLM-5.1 sedang menguji seberapa jauh strategi AI China untuk ekspor bisa berjalan.

Kesimpulan: GLM-5.1 mengubah “bisa terus berjalan beberapa jam” menjadi indikator utama dalam tugas rekayasa, dan open source mulai menjadi pilihan default dalam alur kerja tertentu. Sekarang, tim yang fokus mengoptimasi efisiensi dan memverifikasi arsitektur hybrid akan memiliki keunggulan di tahap berikutnya.

Penting: Tinggi
Kategori: Rilis model, tren industri, open source

Penilaian: Bagi builder yang ingin membangun dan melakukan tuning sendiri, serta yang mengembangkan infrastruktur, ini adalah peluang awal. Mereka yang hanya fokus pada kemampuan dialog umum tidak terlalu relevan. Tim yang tidak mulai melakukan eksperimen tugas jangka panjang dan optimasi Serving saat ini akan tertinggal dalam adopsi perusahaan berikutnya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan