Nghiên cứu hợp tác của năm trường cho phép người số dựa vào thị giác để tự điều hướng trong cảnh 3D, tỷ lệ thành công cao hơn khoảng 30 điểm phần trăm so với mức tối ưu cơ sở

robot
Đang tạo bản tóm tắt

ME News Tin tức, ngày 14 tháng 4 (UTC+8), theo dõi của 1M AI News, nhóm liên ngành của Đại học Bắc Kinh, Đại học Carnegie Mellon, Đại học Tongji, Đại học California Los Angeles và Đại học Michigan đã công bố trên arXiv VGHuman, một khung AI có thể tự hành động trong các cảnh 3D xa lạ chỉ dựa trên cảm nhận thị giác của người số. Trước đây, hệ thống người số thường dựa vào kịch bản đã định sẵn hoặc thông tin trạng thái đặc quyền để điều khiển, VGHuman xuất phát từ việc cung cấp cho người số thực sự đôi mắt, để nó tự nhìn đường, lập kế hoạch, hành động. Khung này gồm hai lớp. Lớp Thế Giới (World Layer) tái tạo cảnh 3D Gaussian có chú thích ngữ nghĩa và lưới va chạm từ video đơn mắt, thiết kế cảm nhận che chắn giúp nó nhận diện các vật nhỏ bị che khuất ngay cả trong môi trường ngoài trời phức tạp. Lớp Đại lý (Agent Layer) trang bị cho người số cảm biến RGB-D (màu sắc + độ sâu) góc nhìn thứ nhất, thông qua cảm nhận thị giác không gian và suy luận lặp lại để tạo ra kế hoạch, cuối cùng chuyển đổi thành chuỗi hành động toàn thân bằng mô hình khuếch tán để điều khiển chuyển động của nhân vật. Trong chuẩn đánh giá dẫn đường với 200 cảnh thử nghiệm, ở ba cấp độ độ khó gồm đường đi đơn giản, vòng tránh chướng ngại vật, người đi bộ động, VGHuman đạt tỷ lệ thành công nhiệm vụ cao nhất vượt xa các đường cơ sở mạnh nhất như NaVILA, NaVid, Uni-NaVid khoảng 30 điểm phần trăm, tỷ lệ va chạm bằng hoặc thấp hơn. Khung còn hỗ trợ các phong cách vận động như chạy, nhảy, cũng như lập kế hoạch dài hạn để tiếp cận nhiều mục tiêu liên tiếp. Mã nguồn và mô hình dự kiến sẽ mở mã nguồn, kho lưu trữ GitHub đã được thiết lập. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim