Microsoft World-R1: Menggunakan pembelajaran penguatan untuk mengajarkan model video "memahami" 3D, tanpa mengubah arsitektur PSNR meningkat 10dB

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 28 April (UTC+8), menurut pemantauan Beating dari Dongcha, tim Microsoft Research dan Zhejiang University mengusulkan World-R1, menggunakan pembelajaran penguatan agar model video berbasis teks belajar tentang konsistensi geometris 3D, tanpa mengubah arsitektur model, dan tanpa bergantung pada dataset 3D. Ide inti: setelah menghasilkan video, gunakan model dasar 3D pra-latih Depth Anything 3 untuk merekonstruksi 3D Gaussian (3DGS) dari scene, lalu render dari sudut pandang baru dan bandingkan dengan video asli, menggabungkan kesalahan rekonstruksi, deviasi lintasan, dan kepercayaan semantik dari sudut pandang baru (dinilai oleh Qwen3-VL) menjadi sinyal penghargaan, yang kemudian diberikan ke model video melalui Flow-GRPO (algoritma pembelajaran penguatan yang menyesuaikan dengan model pencocokan aliran). Model dasar adalah open-source Wan 2.1 (1.3B dan 14B), yang melatih World-R1-Small dan World-R1-Large. Data pelatihan hanya sekitar 3000 prompt teks murni yang dihasilkan oleh Gemini, tanpa menggunakan aset 3D apa pun. Saat pelatihan, setiap 100 langkah disisipkan satu putaran “penyetelan dinamis”, sementara penghargaan 3D sementara dimatikan, hanya mempertahankan penghargaan kualitas gambar, untuk mencegah model menekan gerakan karakter dan dinamika non-rigid lainnya demi mencapai rigiditas geometris. Pada indikator konsistensi 3D, PSNR (Peak Signal-to-Noise Ratio) dari World-R1-Large meningkat sebesar 7.91dB dibandingkan Wan 2.1 14B dasar, dan versi Small meningkat sebesar 10.23dB. VBench menunjukkan kualitas video umum tidak menurun malah meningkat. Dalam pengujian buta terhadap 25 orang, tingkat keberhasilan konsistensi geometris mencapai 92%, dan preferensi keseluruhan 86%. Kode telah dirilis secara open-source di GitHub, dengan lisensi CC BY-NC-SA 4.0. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan