【AI+2513】Zhipu merilis model dasar Coding multimodal pemrograman visual GLM-5V-Turbo

robot
Pembuatan abstrak sedang berlangsung

Salah satu pemimpin teratas dalam kecerdasan buatan (AI) di wilayah daratan, (02513) Pada hari Kamis (2), merilis model basis pemrograman multi-modal untuk pemrograman berbasis pemrograman visual, yaitu GLM-5V-Turbo.

Zhipu menyatakan bahwa GLM-5V-Turbo memadukan secara mendalam kemampuan visual dan teks sejak tahap pra-pelatihan; pemrograman tidak lagi terbatas pada input teks murni. Model dapat memahami rancangan desain, tangkapan layar, dan antarmuka situs web, lalu menghasilkan kode lengkap yang benar-benar dapat dijalankan—benar-benar mampu “memahami tampilan” dan “menulis kode”.

Tiga keunggulan GLM-5V-Turbo

  • Basis Coding multi-modal asli: memahami gambar, video, rancangan desain, tata letak dokumen, dan input multi-modal lainnya secara asli, serta mendukung pemanggilan alat multi-modal seperti bingkai gambar, tangkapan layar, membaca web, dan sebagainya; jendela konteks diperluas hingga 200k
  • Menyeimbangkan kemampuan visual dan pemrograman: meraih kinerja terdepan pada benchmark inti seperti Multi-modal Coding, Tool Use, GUI Agent, dll. Melalui teknik seperti RL kolaborasi multi-tugas, memastikan kemampuan pemrograman, penalaran, pemanggilan alat, dan lain-lain dalam skenario teks murni tidak mengalami penurunan.
  • Adaptasi mendalam untuk Claude Code dan skenario Lobster: berkolaborasi secara mendalam dengan agent seperti Claude Code, OpenClaw/AutoClaw, mendukung loop tertutup lengkap “memahami lingkungan → merencanakan tindakan → mengeksekusi tugas”, serta menyediakan seluruh kumpulan Skills resmi—siap pakai sejak di-unbox.

Zhipu menuturkan bahwa pada benchmark untuk Multi-modal Coding, tugas-tugas berbasis agent (Agentic), serta dimensi Coding teks murni, GLM-5V-Turbo meraih performa terdepan dengan ukuran model yang lebih kecil.

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

GLM-5V-Turbo juga meraih kinerja terdepan pada benchmark seperti pemulihan rancangan desain, generasi kode visual, penelusuran dan tanya jawab multi-modal, eksplorasi visual, dll.; pada benchmark seperti AndroidWorld dan WebVoyager yang mengukur kemampuan kontrol di lingkungan GUI yang nyata, juga menunjukkan performa yang menonjol.

Dalam kemampuan Coding teks murni, GLM-5V-Turbo tetap mempertahankan performa yang stabil pada tiga benchmark inti di CC-Bench-V2: Backend, Frontend, dan Repo Exploration. Ini menunjukkan bahwa setelah kemampuan visual diperkenalkan, kemampuan pemrograman dan penalaran teks murni tetap pada tingkat yang setara.

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

Menurut pengenalan, pencapaian performa terdepan oleh GLM-5V-Turbo terutama karena peningkatan sistematis pada empat lapisan: arsitektur model, metode pelatihan, konstruksi data, dan toolchain:

Menghadapi tantangan industri berupa kelangkaan data agent dan kesulitan verifikasi, Zhipu membangun sistem berlapis mulai dari persepsi elemen hingga prediksi tindakan tingkat sekuens. Berdasarkan lingkungan sintetis, mereka menghasilkan data pelatihan yang dapat dikendalikan dan dapat diverifikasi dalam skala besar, lalu sejak tahap pra-pelatihan menyuntikkan kemampuan meta Agentic (misalnya menambahkan data GUI Agent PRM ke pra-pelatihan untuk mengurangi halusinasi). Selain itu, mereka juga mengeksplorasi optimasi asimetris, menggunakan tugas evaluasi multi-modal untuk “mengungkit” kemampuan agent yang lebih kuat.

Bisa langsung Cap gambar dan memprogram

Dalam aplikasi, Zhipu memberikan contoh berikut:

1.Gambar adalah kode

GLM-5V-Turbo sangat unggul pada skenario pemrograman visual inti.

Replikasi front-end: kirimkan sketsa, rancangan desain, serta tangkapan layar atau rekaman video dari situs referensi; model dapat langsung memahami tata letak, skema warna, tingkat komponen, dan logika interaksi, lalu menghasilkan proyek front-end lengkap yang dapat dijalankan dengan akurat mereplikasi detail visual seperti tipografi, skema warna, dan animasi.

Replikasi eksplorasi mandiri GUI: dengan menggabungkan kerangka seperti Claude Code, GLM-5V-Turbo dapat secara mandiri menjelajahi situs target berkat kemampuan GUI Agent yang kuat, menelusuri struktur halaman, merapikan hubungan navigasi antarhalaman, mengumpulkan materi visual dan detail interaksi. Pada akhirnya, berdasarkan hasil eksplorasi yang tercatat, model langsung menghasilkan kode untuk mereplikasi seluruh situs, mewujudkan lompatan kemampuan dari “replikasi dari melihat gambar” menjadi “replikasi melalui eksplorasi GUI”.

Edit interaktif: mendukung penambahan/penghapusan modul halaman sesuai kebutuhan, mengubah naskah dan gaya, menyesuaikan struktur tata letak, serta dapat menambahkan fungsi interaksi seperti umpan balik tombol, pergantian popup, sinkronisasi formulir, dan lain-lain untuk mewujudkan iterasi edit secara visual.

2.Memasang mata pada lobster

Batas tugas lobster diperluas secara besar—misalnya dapat menjelajahi situs web dan dokumen, menghasilkan laporan dan PPT yang kaya gambar dan teks, serta bahkan dapat menelusuri dan menginterpretasikan grafik kompleks seperti chart K-line.

AutoClaw telah meluncurkan Skill “penganalisis saham”. Dengan memanfaatkan kemampuan visual asli GLM-5V-Turbo, lobster dapat langsung memahami pergerakan harga saham, grafik rentang valuasi, dan grafik riset dari sekuritas, sehingga mewujudkan pengumpulan data paralel dari empat sumber data dalam 60 detik, lalu menghasilkan laporan riset dengan susunan gambar dan teks. Saat ini, di AutoClaw pengguna dapat beralih ke GLM-5V-Turbo, lalu mencoba bertanya seperti “tolong analisis harga saham XXX hari ini, dan buat laporan analisis profesional”.

Selain pemrograman visual dan tugas lobster, GLM-5V-Turbo juga mencapai peningkatan performa yang signifikan pada skenario Agentic yang lebih luas seperti pencarian multi-modal, riset mendalam, GUI Agent, dan skenario Grounding berbasis persepsi.

Untuk itu, disediakan satu set Skills resmi yang mencakup kemampuan asli seperti image Captioning, visual Grounding, penulisan berbasis dokumen, penyaringan resume, pembuatan prompt, dll., serta kemampuan pengenalan teks, pengenalan tabel, pengenalan tulisan tangan, pengenalan rumus, dan kemampuan text-to-image yang dibangun berdasarkan GLM-OCR dan GLM-Image. Hal ini membantu pengguna melepaskan potensi multi-modal model di lebih banyak skenario. Skills di atas telah diluncurkan di ClawHub; instal sekali klik untuk merasakan semua kemampuan.

		Talk Panas Keuangan
	





	Akankah perang yang melibatkan Iran dan AS berlangsung lama? Apakah pasar meremehkan risiko perlambatan ekonomi global?
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan