Tencent mở nguồn mô hình thế giới hỗn nguyên 2.0, tạo ra câu nói có thể đi vào thế giới 3D, trực tiếp nhập vào Unity và UE

robot
Đang tạo bản tóm tắt

Thông tin ME News, ngày 16 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, Tencent chính thức phát hành và mở mã nguồn mô hình thế giới 3D hỗn hợp Yuan 3D 2.0 (HY-World 2.0). Đây là một khung mô hình thế giới đa phương thức, hỗ trợ đầu vào là văn bản, hình ảnh đơn, hình ảnh đa góc và video, đầu ra không phải là video mà là các tài sản 3D có thể chỉnh sửa (mô hình lưới, tia Gaussian 3D, đám mây điểm), có thể nhập trực tiếp vào Unity, Unreal Engine và NVIDIA Isaac Sim. Trọng số mô hình và mã nguồn được mở trên GitHub và Hugging Face. Điểm khác biệt căn bản giữa mô hình thế giới video như Genie 3, Cosmos và HY-World 2.0 là: mô hình thế giới video tạo ra video ở cấp độ pixel, sau khi phát xong sẽ biến mất, không thể chỉnh sửa; HY-World 2.0 tạo ra các tài sản 3D tồn tại lâu dài, hỗ trợ đi lại tự do, va chạm vật lý và chỉnh sửa lần hai. Trong báo cáo kỹ thuật, Tencent tóm tắt sự khác biệt này là “xem một đoạn video rồi nó biến mất” so với “xây dựng một thế giới để lưu giữ vĩnh viễn”. Có thể thực hiện dựng hình thời gian thực bằng GPU tiêu dùng, suy luận chỉ cần một lần, không giống như mô hình thế giới video phải chạy lại cho từng khung hình. Về mặt kỹ thuật, gồm bốn giai đoạn: đầu tiên dùng HY-Pano 2.0 tạo ra toàn cảnh 360 độ từ đầu vào, sau đó dùng WorldNav để lập kế hoạch quỹ đạo, rồi dùng WorldStereo 2.0 mở rộng thế giới theo quỹ đạo, cuối cùng dùng WorldMirror 2.0 tái tạo tất cả các đoạn đã tạo thành một cảnh 3D thống nhất. Trong các giải pháp mã nguồn mở, HY-World 2.0 gọi đây là mô hình thế giới 3D đạt trình độ SOTA đầu tiên, hiệu quả có thể so sánh với sản phẩm thương mại đóng nguồn Marble. Tuy nhiên hiện tại chỉ mở mã nguồn phần WorldMirror 2.0 (mô-đun tái tạo 3D, khoảng 1.2 tỷ tham số) cùng trọng số, còn các mô-đun tạo toàn cảnh, lập kế hoạch quỹ đạo và mở rộng thế giới đều ghi chú là “sẽ sớm phát hành”. Đối với nhà phát triển game, điều này có nghĩa là có thể nhanh chóng tạo ra nguyên mẫu cấp độ và bản đồ chỉ trong một câu, tiết kiệm thời gian mô hình thủ công lớn. Đối với các nhà nghiên cứu trí thông minh thể chất, chi phí tạo môi trường huấn luyện mô phỏng từ ảnh chụp hàng loạt sẽ giảm đáng kể. Tencent cũng ra mắt cổng trải nghiệm trực tuyến, người dùng có thể điều khiển nhân vật tự do khám phá các con phố và tòa nhà đã tạo ra. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim