Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
【AI+2513】Zhipu merilis model dasar Coding multimodal pemrograman visual GLM-5V-Turbo
Salah satu pemimpin teratas dalam kecerdasan buatan (AI) di wilayah daratan,
(02513)
Pada hari Kamis (2), merilis model basis pemrograman multi-modal untuk pemrograman berbasis pemrograman visual, yaitu GLM-5V-Turbo.
Zhipu menyatakan bahwa GLM-5V-Turbo memadukan secara mendalam kemampuan visual dan teks sejak tahap pra-pelatihan; pemrograman tidak lagi terbatas pada input teks murni. Model dapat memahami rancangan desain, tangkapan layar, dan antarmuka situs web, lalu menghasilkan kode lengkap yang benar-benar dapat dijalankan—benar-benar mampu “memahami tampilan” dan “menulis kode”.
Tiga keunggulan GLM-5V-Turbo
Zhipu menuturkan bahwa pada benchmark untuk Multi-modal Coding, tugas-tugas berbasis agent (Agentic), serta dimensi Coding teks murni, GLM-5V-Turbo meraih performa terdepan dengan ukuran model yang lebih kecil.
GLM-5V-Turbo juga meraih kinerja terdepan pada benchmark seperti pemulihan rancangan desain, generasi kode visual, penelusuran dan tanya jawab multi-modal, eksplorasi visual, dll.; pada benchmark seperti AndroidWorld dan WebVoyager yang mengukur kemampuan kontrol di lingkungan GUI yang nyata, juga menunjukkan performa yang menonjol.
Dalam kemampuan Coding teks murni, GLM-5V-Turbo tetap mempertahankan performa yang stabil pada tiga benchmark inti di CC-Bench-V2: Backend, Frontend, dan Repo Exploration. Ini menunjukkan bahwa setelah kemampuan visual diperkenalkan, kemampuan pemrograman dan penalaran teks murni tetap pada tingkat yang setara.
Menurut pengenalan, pencapaian performa terdepan oleh GLM-5V-Turbo terutama karena peningkatan sistematis pada empat lapisan: arsitektur model, metode pelatihan, konstruksi data, dan toolchain:
Menghadapi tantangan industri berupa kelangkaan data agent dan kesulitan verifikasi, Zhipu membangun sistem berlapis mulai dari persepsi elemen hingga prediksi tindakan tingkat sekuens. Berdasarkan lingkungan sintetis, mereka menghasilkan data pelatihan yang dapat dikendalikan dan dapat diverifikasi dalam skala besar, lalu sejak tahap pra-pelatihan menyuntikkan kemampuan meta Agentic (misalnya menambahkan data GUI Agent PRM ke pra-pelatihan untuk mengurangi halusinasi). Selain itu, mereka juga mengeksplorasi optimasi asimetris, menggunakan tugas evaluasi multi-modal untuk “mengungkit” kemampuan agent yang lebih kuat.
Bisa langsung Cap gambar dan memprogram
Dalam aplikasi, Zhipu memberikan contoh berikut:
1.Gambar adalah kode
GLM-5V-Turbo sangat unggul pada skenario pemrograman visual inti.
Replikasi front-end: kirimkan sketsa, rancangan desain, serta tangkapan layar atau rekaman video dari situs referensi; model dapat langsung memahami tata letak, skema warna, tingkat komponen, dan logika interaksi, lalu menghasilkan proyek front-end lengkap yang dapat dijalankan dengan akurat mereplikasi detail visual seperti tipografi, skema warna, dan animasi.
Replikasi eksplorasi mandiri GUI: dengan menggabungkan kerangka seperti Claude Code, GLM-5V-Turbo dapat secara mandiri menjelajahi situs target berkat kemampuan GUI Agent yang kuat, menelusuri struktur halaman, merapikan hubungan navigasi antarhalaman, mengumpulkan materi visual dan detail interaksi. Pada akhirnya, berdasarkan hasil eksplorasi yang tercatat, model langsung menghasilkan kode untuk mereplikasi seluruh situs, mewujudkan lompatan kemampuan dari “replikasi dari melihat gambar” menjadi “replikasi melalui eksplorasi GUI”.
Edit interaktif: mendukung penambahan/penghapusan modul halaman sesuai kebutuhan, mengubah naskah dan gaya, menyesuaikan struktur tata letak, serta dapat menambahkan fungsi interaksi seperti umpan balik tombol, pergantian popup, sinkronisasi formulir, dan lain-lain untuk mewujudkan iterasi edit secara visual.
2.Memasang mata pada lobster
Batas tugas lobster diperluas secara besar—misalnya dapat menjelajahi situs web dan dokumen, menghasilkan laporan dan PPT yang kaya gambar dan teks, serta bahkan dapat menelusuri dan menginterpretasikan grafik kompleks seperti chart K-line.
AutoClaw telah meluncurkan Skill “penganalisis saham”. Dengan memanfaatkan kemampuan visual asli GLM-5V-Turbo, lobster dapat langsung memahami pergerakan harga saham, grafik rentang valuasi, dan grafik riset dari sekuritas, sehingga mewujudkan pengumpulan data paralel dari empat sumber data dalam 60 detik, lalu menghasilkan laporan riset dengan susunan gambar dan teks. Saat ini, di AutoClaw pengguna dapat beralih ke GLM-5V-Turbo, lalu mencoba bertanya seperti “tolong analisis harga saham XXX hari ini, dan buat laporan analisis profesional”.
Selain pemrograman visual dan tugas lobster, GLM-5V-Turbo juga mencapai peningkatan performa yang signifikan pada skenario Agentic yang lebih luas seperti pencarian multi-modal, riset mendalam, GUI Agent, dan skenario Grounding berbasis persepsi.
Untuk itu, disediakan satu set Skills resmi yang mencakup kemampuan asli seperti image Captioning, visual Grounding, penulisan berbasis dokumen, penyaringan resume, pembuatan prompt, dll., serta kemampuan pengenalan teks, pengenalan tabel, pengenalan tulisan tangan, pengenalan rumus, dan kemampuan text-to-image yang dibangun berdasarkan GLM-OCR dan GLM-Image. Hal ini membantu pengguna melepaskan potensi multi-modal model di lebih banyak skenario. Skills di atas telah diluncurkan di ClawHub; instal sekali klik untuk merasakan semua kemampuan.