Laporan Teknologi智谱GLM-5V-Turbo: Design2Code超Claude Opus4.6, langsung tulis kode dari tangkapan layar

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, laporan teknologi GLM-5V-Turbo dirilis oleh Zhipu AI. Model ini telah diluncurkan pada awal April melalui API Z.ai dan OpenRouter, dan kali ini adalah pengungkapan metodologi pengiriman ulang, model tersebut belum dirilis sebagai sumber terbuka. GLM-5V-Turbo adalah model dasar pemrograman multimodal pertama dari Zhipu, mendukung konteks sekitar 200K, dan dapat diintegrasikan dengan kerangka agen seperti Claude Code dan OpenClaw. Berbeda dengan kebanyakan pendekatan yang menganggap visual sebagai lampiran model bahasa, model ini sejak tahap pra-pelatihan telah mengintegrasikan persepsi visual ke dalam seluruh proses penalaran, perencanaan, panggilan alat, dan eksekusi.

Arsitektur model memiliki tiga desain kunci. Pertama adalah encoder visual baru CogViT, yang menggunakan SigLIP2 dan DINOv3 sebagai pengajaran ganda untuk distil pra-pelatihan, kemudian menggunakan 8 miliar data teks bergambar bilingual Inggris-Cina untuk pembelajaran perbandingan dan penyelarasan. Kedua adalah prediksi multimodal multi-token (MMTP), yang menggunakan token khusus <|image|> yang dapat dipelajari bersama sebagai pengganti pengiriman langsung embedding visual, mengurangi kompleksitas komunikasi antar tahap pipeline, dan membuat pelatihan lebih stabil. Ketiga adalah pelatihan penguatan gabungan dari lebih dari 30 tugas, mencakup tiga tingkat persepsi, penalaran, dan eksekusi agen.

Peningkatan selama fase RL tersebar luas: penentuan posisi gambar 2D +4,8%, pemahaman video +5,6%, penentuan posisi 3D +7,7%, OCR +4,2%, pemahaman grafik +7,7%, agen GUI (OSWorld) +4,9%, panggilan alat pencarian multimodal +3,5%. Tim dalam makalah menunjukkan bahwa RL multi-tugas berbeda dari gangguan lintas domain yang umum dalam SFT, di mana setiap kemampuan dapat meningkat secara stabil bersama-sama, bahkan pola penalaran yang dipelajari di satu bidang dapat dipindahkan ke bidang lain.

Skor pengujian spesifik: Design2Code 94,8, mengalahkan Claude Opus sebesar 4,6; OSWorld 62,3, AndroidWorld 75,7; pencarian multimodal MMSearch 72,9, BrowseComp-VL 51,9; pemrograman teks murni di backend CC-Bench-V2 (22,8), frontend (68,4), dan eksplorasi repositori kode (72,2) mengungguli basis murni teks GLM-5-Turbo. MMSearch-Plus mendapatkan 30,0, meningkat hampir 8 kali lipat dari generasi sebelumnya GLM-4.6V; standar pencarian kedalaman visual buatan sendiri ImageMining mendapatkan 30,7.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan