VGHuman là khung công tác AI thể chất do nhóm hợp tác giữa Đại học Bắc Kinh, CMU, Tongji, UCLA và Michigan công bố trên arXiv, cho phép hành động tự chủ trong các cảnh 3D xa lạ dựa trên thị giác. Khung gồm có World Layer (mô hình Gaussian 3D tái tạo video đơn mắt có chứa dữ liệu siêu âm và lưới va chạm, xem xét che khuất) và Agent Layer (cảm biến RGB-D góc nhìn thứ nhất, suy luận lặp đi lặp lại để tạo ra kế hoạch, chuyển đổi mô hình khuếch tán thành các hành động toàn thân). Trong 200 cảnh thử nghiệm, tỷ lệ thành công cao hơn khoảng 30 điểm phần trăm so với các phương pháp cơ sở như NaVILA, tỷ lệ va chạm thấp hơn hoặc bằng; hỗ trợ các hành động nhảy chạy và lập kế hoạch dài hạn, mã nguồn dự kiến sẽ mở, đã tạo kho trên GitHub.

MeNews

2026-05-01 03:10:18

Đang tạo bản tóm tắt

ME News Tin tức, ngày 14 tháng 4 (UTC+8), theo dõi của 1M AI News, nhóm liên ngành của Đại học Bắc Kinh, Đại học Carnegie Mellon, Đại học Tongji, Đại học California Los Angeles và Đại học Michigan đã công bố trên arXiv VGHuman, một khung AI có thể tự hành động trong các cảnh 3D xa lạ chỉ dựa trên cảm nhận thị giác của người số. Trước đây, hệ thống người số thường dựa vào kịch bản đã định sẵn hoặc thông tin trạng thái đặc quyền để điều khiển, VGHuman xuất phát từ việc cung cấp cho người số thực sự đôi mắt, để nó tự nhìn đường, lập kế hoạch, hành động. Khung này gồm hai lớp. Lớp Thế Giới (World Layer) tái tạo cảnh 3D Gaussian có chú thích ngữ nghĩa và lưới va chạm từ video đơn mắt, thiết kế cảm nhận che chắn giúp nó nhận diện các vật nhỏ bị che khuất ngay cả trong môi trường ngoài trời phức tạp. Lớp Đại lý (Agent Layer) trang bị cho người số cảm biến RGB-D (màu sắc + độ sâu) góc nhìn thứ nhất, thông qua cảm nhận thị giác không gian và suy luận lặp lại để tạo ra kế hoạch, cuối cùng chuyển đổi thành chuỗi hành động toàn thân bằng mô hình khuếch tán để điều khiển chuyển động của nhân vật. Trong chuẩn đánh giá dẫn đường với 200 cảnh thử nghiệm, ở ba cấp độ độ khó gồm đường đi đơn giản, vòng tránh chướng ngại vật, người đi bộ động, VGHuman đạt tỷ lệ thành công nhiệm vụ cao nhất vượt xa các đường cơ sở mạnh nhất như NaVILA, NaVid, Uni-NaVid khoảng 30 điểm phần trăm, tỷ lệ va chạm bằng hoặc thấp hơn. Khung còn hỗ trợ các phong cách vận động như chạy, nhảy, cũng như lập kế hoạch dài hạn để tiếp cận nhiều mục tiêu liên tiếp. Mã nguồn và mô hình dự kiến sẽ mở mã nguồn, kho lưu trữ GitHub đã được thiết lập. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
462.34K Phổ biến
#
USSeeksStrategicBitcoinReserve
58.7M Phổ biến
#
IsraelStrikesIranBTCPlunges
37.46K Phổ biến
#
BitcoinETFOptionLimitQuadruples
993.93K Phổ biến
#
#FedHoldsRateButDividesDeepen
31.17K Phổ biến

Ghim

sơ đồ trang web

Nghiên cứu hợp tác của năm trường cho phép người số dựa vào thị giác để tự điều hướng trong cảnh 3D, tỷ lệ thành công cao hơn khoảng 30 điểm phần trăm so với mức tối ưu cơ sở

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim