Penelitian gabungan lima universitas memungkinkan manusia digital menavigasi secara mandiri di adegan 3D melalui penglihatan, tingkat keberhasilan lebih tinggi sekitar 30 poin persentase dibandingkan garis dasar terbaik

robot
Pembuatan abstrak sedang berlangsung

ME News Berita, 14 April (UTC+8), menurut pemantauan 1M AI News, tim gabungan dari Universitas Peking, Universitas Carnegie Mellon, Universitas Tongji, Universitas California Los Angeles, dan Universitas Michigan merilis VGHuman di arXiv, sebuah kerangka AI berwujud yang memungkinkan manusia digital bertindak secara mandiri dalam lingkungan 3D yang asing hanya dengan persepsi visual. Sebelumnya, sistem manusia digital umumnya bergantung pada skrip yang telah diprogram atau informasi status istimewa, sedangkan titik awal VGHuman adalah memberikan manusia digital mata yang sesungguhnya, membiarkannya melihat jalan, merencanakan, dan bertindak sendiri. Kerangka ini terbagi menjadi dua lapisan. Lapisan Dunia (World Layer) merekonstruksi lingkungan 3D Gaussian dengan anotasi semantik dan grid tabrakan dari video monocular, dengan desain persepsi halangan yang memungkinkan pengenalan objek kecil yang tertutup dalam lingkungan luar ruangan yang kompleks. Lapisan Agen (Agent Layer) dilengkapi dengan persepsi RGB-D (warna + kedalaman) dari sudut pandang pertama untuk manusia digital, melalui petunjuk visual persepsi ruang dan penalaran iteratif untuk menghasilkan rencana, yang akhirnya diubah oleh model difusi menjadi rangkaian gerakan seluruh tubuh yang menggerakkan karakter. Dalam standar navigasi 200 lingkungan pengujian, dengan tingkat kesulitan meliputi jalur sederhana, menghindari rintangan, dan pejalan kaki dinamis, tingkat keberhasilan tugas VGHuman tertinggi melebihi sekitar 30 poin persen dari baseline terkuat seperti NaVILA, NaVid, Uni-NaVid, dan lain-lain, dengan tingkat tabrakan yang seimbang atau lebih rendah. Kerangka ini juga mendukung berbagai gaya gerak seperti berlari, melompat, serta perencanaan jarak jauh untuk mengakses beberapa target secara berurutan. Kode dan model direncanakan akan dirilis secara terbuka, dan repositori GitHub telah dibuat. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan