Laporan Teknologi智谱GLM-5V-Turbo: Design2Code超Claude Opus4.6, langsung tulis kode dari tangkapan layar

robot
Pembuatan abstrak sedang berlangsung

Berita dari Jiemy.com, Zhipu AI merilis laporan teknologi GLM-5V-Turbo, model ini diluncurkan pada awal April melalui API z.ai dan OpenRouter. Laporan kali ini melengkapi metodologi, model ini tidak dirilis sebagai sumber terbuka. GLM-5V-Turbo adalah model dasar pemrograman multimodal pertama dari Zhipu, mendukung konteks sekitar 200k, dan dapat terhubung dengan kerangka agen seperti Claude Code dan OpenClaw. Model ini sejak tahap pra-pelatihan telah mengintegrasikan persepsi visual ke dalam seluruh proses penalaran, perencanaan, panggilan alat, dan eksekusi. Arsitektur model memiliki tiga desain kunci: encoder visual baru CogVit, menggunakan SigLip2 dan DinoV3 untuk distilasi pengajaran ganda dalam pra-pelatihan, serta menggunakan 8 miliar data teks bergambar bilingual Cina-Inggris untuk pembelajaran perbandingan dan penyelarasan multimodal multi-token prediksi (MMTP), menggantikan penyampaian visual embedding langsung dengan token khusus yang dapat dipelajari bersama, mengurangi kompleksitas komunikasi antar tahap pipeline, dan melatih dengan stabil melalui pembelajaran penguatan gabungan yang mencakup persepsi, penalaran, dan eksekusi agen. Skor pengujian menunjukkan bahwa Design2Code mencapai 94,8, melebihi Claude Opus 4,6.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan