Zhipu AI merilis laporan teknologi GLM-5V-Turbo, basis pemrograman multimodal pertama, dengan konteks sekitar 200K, dapat terhubung ke ClaudeCode/OpenClaw, belum bersifat open source. Tiga desain inti: pengkodean visual CogViT, token berbagi MMTP<|image|>, dan pembelajaran penguatan gabungan untuk lebih dari 30 tugas. Peningkatan signifikan dalam RL lintas bidang, Design2Code 94.8, MMSearch-Plus 30.0, ImageMining 30.7.

BlockBeatNews

2026-05-08 02:53:48

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, laporan teknologi GLM-5V-Turbo dirilis oleh Zhipu AI. Model ini telah diluncurkan pada awal April melalui API Z.ai dan OpenRouter, dan kali ini adalah pengungkapan metodologi pengiriman ulang, model tersebut belum dirilis sebagai sumber terbuka. GLM-5V-Turbo adalah model dasar pemrograman multimodal pertama dari Zhipu, mendukung konteks sekitar 200K, dan dapat diintegrasikan dengan kerangka agen seperti Claude Code dan OpenClaw. Berbeda dengan kebanyakan pendekatan yang menganggap visual sebagai lampiran model bahasa, model ini sejak tahap pra-pelatihan telah mengintegrasikan persepsi visual ke dalam seluruh proses penalaran, perencanaan, panggilan alat, dan eksekusi.

Arsitektur model memiliki tiga desain kunci. Pertama adalah encoder visual baru CogViT, yang menggunakan SigLIP2 dan DINOv3 sebagai pengajaran ganda untuk distil pra-pelatihan, kemudian menggunakan 8 miliar data teks bergambar bilingual Inggris-Cina untuk pembelajaran perbandingan dan penyelarasan. Kedua adalah prediksi multimodal multi-token (MMTP), yang menggunakan token khusus <|image|> yang dapat dipelajari bersama sebagai pengganti pengiriman langsung embedding visual, mengurangi kompleksitas komunikasi antar tahap pipeline, dan membuat pelatihan lebih stabil. Ketiga adalah pelatihan penguatan gabungan dari lebih dari 30 tugas, mencakup tiga tingkat persepsi, penalaran, dan eksekusi agen.

Peningkatan selama fase RL tersebar luas: penentuan posisi gambar 2D +4,8%, pemahaman video +5,6%, penentuan posisi 3D +7,7%, OCR +4,2%, pemahaman grafik +7,7%, agen GUI (OSWorld) +4,9%, panggilan alat pencarian multimodal +3,5%. Tim dalam makalah menunjukkan bahwa RL multi-tugas berbeda dari gangguan lintas domain yang umum dalam SFT, di mana setiap kemampuan dapat meningkat secara stabil bersama-sama, bahkan pola penalaran yang dipelajari di satu bidang dapat dipindahkan ke bidang lain.

Skor pengujian spesifik: Design2Code 94,8, mengalahkan Claude Opus sebesar 4,6; OSWorld 62,3, AndroidWorld 75,7; pencarian multimodal MMSearch 72,9, BrowseComp-VL 51,9; pemrograman teks murni di backend CC-Bench-V2 (22,8), frontend (68,4), dan eksplorasi repositori kode (72,2) mengungguli basis murni teks GLM-5-Turbo. MMSearch-Plus mendapatkan 30,0, meningkat hampir 8 kali lipat dari generasi sebelumnya GLM-4.6V; standar pencarian kedalaman visual buatan sendiri ImageMining mendapatkan 30,7.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
730.56K Popularitas
#
BitcoinFallsBelow80K
95.02M Popularitas
#
IsraelStrikesIranBTCPlunges
44.25K Popularitas
#
IranUSConflictEscalates
84.93K Popularitas
#
OilPriceRollerCoaster
1.02M Popularitas

Sematkan

peta situs

Laporan Teknologi智谱GLM-5V-Turbo: Design2Code超Claude Opus4.6, langsung tulis kode dari tangkapan layar

Topik Trending

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Sematkan