Tencent merilis sumber terbuka Model Dunia Hun Yuan 2.0, satu kalimat menghasilkan dunia 3D yang dapat dijelajahi, langsung impor ke Unity dan UE

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 16 April (UTC+8), menurut pemantauan Beating dari Dongcha, Tencent secara resmi merilis dan membuka sumber model dunia 3D hybrid Yuan 2.0 (HY-World 2.0). Ini adalah kerangka model dunia multimodal yang mendukung input teks, gambar tunggal, gambar multi-sudut, dan video, outputnya bukan video, melainkan aset 3D yang dapat diedit (model jaringan, semburan Gaussian 3D, point cloud), yang dapat langsung diimpor ke Unity, Unreal Engine, dan NVIDIA Isaac Sim. Bobot model dan kode tersedia sebagai open source di GitHub dan Hugging Face. Perbedaan mendasar dengan model dunia video seperti Genie 3, Cosmos, adalah: model dunia video menghasilkan video tingkat piksel yang hilang setelah diputar, tidak dapat diedit; HY-World 2.0 menghasilkan aset 3D yang permanen, mendukung berjalan bebas, tabrakan fisik, dan pengeditan ulang. Dalam laporan teknisnya, Tencent merangkum perbedaan ini sebagai “menonton sebuah video lalu hilang” versus “membangun sebuah dunia yang permanen”. Dengan GPU konsumen, dapat melakukan rendering secara real-time, inference hanya sekali, tidak seperti model dunia video yang harus dijalankan untuk setiap frame. Secara teknis terdiri dari empat tahap: pertama menggunakan HY-Pano 2.0 untuk menghasilkan panorama 360 derajat dari input, kemudian menggunakan WorldNav untuk perencanaan jalur, lalu menggunakan WorldStereo 2.0 untuk memperluas dunia sepanjang jalur, dan terakhir menggunakan WorldMirror 2.0 untuk merekonstruksi semua fragmen yang dihasilkan menjadi satu scene 3D yang seragam. Dalam solusi open source, HY-World 2.0 disebut sebagai model dunia 3D pertama yang mencapai tingkat SOTA, hasilnya sebanding dengan produk komersial tertutup Marble. Namun saat ini hanya kode dan bobot untuk WorldMirror 2.0 (modul rekonstruksi 3D, sekitar 1,2 miliar parameter) yang dirilis secara terbuka, sedangkan kode dan bobot untuk modul panorama, perencanaan jalur, dan perluasan dunia akan dirilis “segera”. Bagi pengembang game, ini berarti dapat dengan cepat menghasilkan prototipe level dan peta dengan satu kalimat, menghemat banyak waktu pemodelan manual. Bagi peneliti kecerdasan embodied, biaya untuk menghasilkan lingkungan simulasi dari foto secara massal berkurang secara signifikan. Tencent juga meluncurkan akses pengalaman daring, di mana pengguna dapat mengendalikan karakter untuk menjelajah bebas di jalan dan bangunan yang dihasilkan. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan