Penelitian gabungan lima universitas memungkinkan manusia digital menavigasi secara mandiri di adegan 3D melalui penglihatan, tingkat keberhasilan lebih dari sekitar 30 poin persentase di atas garis dasar optimal

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 14 April (UTC+8), menurut pemantauan 1M AI News, tim gabungan dari Universitas Peking, Universitas Carnegie Mellon, Universitas Tongji, Universitas California Los Angeles, dan Universitas Michigan merilis VGHuman di arXiv, sebuah kerangka AI berwujud yang memungkinkan manusia digital bertindak secara mandiri dalam lingkungan 3D yang asing hanya dengan persepsi visual. Sebelumnya, sistem manusia digital umumnya bergantung pada skrip yang telah diprogram atau informasi status istimewa, sedangkan titik awal VGHuman adalah memberi manusia digital mata yang sesungguhnya, agar dapat melihat jalan, merencanakan, dan bertindak sendiri. Kerangka ini terbagi menjadi dua lapisan. Lapisan Dunia (World Layer) merekonstruksi lingkungan 3D Gaussian dengan anotasi semantik dan grid tabrakan dari video monocular, dengan desain persepsi halangan yang memungkinkan pengenalan objek kecil yang tertutup dalam lingkungan luar yang kompleks. Lapisan Agen (Agent Layer) dilengkapi dengan persepsi RGB-D (warna + kedalaman) dari sudut pandang pertama, melalui petunjuk visual persepsi ruang dan penalaran iteratif untuk menghasilkan rencana, yang akhirnya diubah oleh model difusi menjadi rangkaian gerakan seluruh tubuh yang menggerakkan karakter. Dalam standar navigasi di 200 lingkungan pengujian, dengan tingkat kesulitan meliputi jalur sederhana, menghindari rintangan, dan pejalan kaki dinamis, VGHuman mencapai tingkat keberhasilan tugas tertinggi melebihi sekitar 30 poin persen dari baseline terkuat seperti NaVILA, NaVid, Uni-NaVid, dan lainnya, dengan tingkat tabrakan yang sama atau lebih rendah. Kerangka ini juga mendukung berbagai gaya gerak seperti berlari, melompat, serta perencanaan jarak jauh untuk mencapai beberapa target secara berurutan. Kode dan model direncanakan akan dirilis secara terbuka, dan repositori GitHub telah dibuat. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan