Google Vision Banana: 'Momen GPT-3' dari visi komputer? Model generasi gambar mengalahkan model pemahaman visual khusus.

ME News berita, 23 April (UTC+8), menurut pemantauan Beating, tim Google (termasuk penulis seperti He Kaiming, Xie Saining, dll.) menerbitkan makalah yang mengusulkan Vision Banana, melakukan penyesuaian instruksi ringan pada model pembuatan gambar mereka sendiri Nano Banana Pro (yaitu Gemini 3 Pro Image), mengubahnya menjadi model pemahaman visual umum. Pendekatan intinya adalah dengan menyeragamkan semua output tugas visual menjadi gambar RGB, sehingga tugas persepsi seperti segmentasi, estimasi kedalaman, estimasi normal permukaan diselesaikan melalui pembuatan gambar, tanpa perlu merancang arsitektur khusus atau kerugian pelatihan untuk setiap jenis tugas.

Evaluasi mencakup dua kategori tugas utama: segmentasi gambar dan inferensi geometri 3D. Dalam hal segmentasi, segmentasi semantik (memberi label setiap piksel dalam gambar, seperti "jalan", "pejalan kaki", "kendaraan") di Cityscapes melampaui model segmentasi khusus SAM 3 sebesar 4,7 poin persentase; segmentasi berdasarkan ekspresi referensi (menemukan dan menyegmentasi objek yang sesuai berdasarkan deskripsi bahasa alami, seperti "anjing bertopi di sebelah kiri") juga melampaui SAM 3 Agent. Namun, dalam segmentasi instance (membedakan individu yang berbeda dalam kategori yang sama, seperti menandai lima anjing dalam gambar secara terpisah) masih tertinggal dari SAM 3. Dalam hal 3D, estimasi kedalaman metrik (menghitung jarak fisik aktual dari setiap piksel ke kamera dari satu foto) mencapai akurasi rata-rata 0,929 pada empat set data standar, lebih tinggi dari model khusus Depth Anything V3 yang sebesar 0,918, dan sepenuhnya dilatih dengan data sintetis, tanpa menggunakan data kedalaman nyata, dan tidak memerlukan parameter kamera saat inferensi. Estimasi normal permukaan (memperkirakan orientasi permukaan objek) mencapai hasil terbaik pada tiga tolok ukur dalam ruangan.

Penyesuaian instruksi hanya mencampur sejumlah kecil data tugas visual ke dalam data pelatihan pembuatan gambar asli, sehingga kemampuan pembuatan gambar model pada dasarnya tidak terpengaruh: dalam evaluasi kualitas pembuatan, hasilnya sama dengan Nano Banana Pro asli. Makalah berpendapat bahwa peran pre-training pembuatan gambar dalam bidang visual mirip dengan peran pre-training pembuatan teks dalam bidang bahasa: saat model belajar membuat gambar, model telah memperoleh representasi internal yang diperlukan untuk memahami gambar, dan penyesuaian instruksi hanya melepaskannya. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar