Meta AI phát hành mô hình thế giới dự đoán nhúng liên hợp cho lập kế hoạch vật lý JEPA-WMs

Tin tức ME News, ngày 3 tháng 4 (UTC+8), nhóm Meta AI Research đã công bố mô hình dự đoán thế giới Joint Embedding Predictive World Model (JEPA-WMs) dùng cho lập kế hoạch vật lý và các nghiên cứu liên quan. Nghiên cứu này tìm hiểu các yếu tố then chốt dẫn đến việc mô hình hoạt động thành công, đồng thời cung cấp bản triển khai hoàn chỉnh bằng PyTorch, bộ dữ liệu và các mô hình đã được huấn luyện trước. Các mô hình được công bố bao gồm mô hình cốt lõi JEPA-WM và các mô hình làm baseline là DINO-WM và V-JEPA-2-AC(fixed), bao phủ nhiều môi trường thao tác robot và điều hướng như DROID & RoboCasa, Metaworld, Push-T, PointMaze và Wall. Mô hình sử dụng các bộ mã hoá hình ảnh như DINOv3 ViT-L/16, DINOv2 ViT-S/14 và V-JEPA-2 ViT-G/16; độ phân giải hình ảnh đầu vào chủ yếu là 224×224 hoặc 256×256. Dự án cũng cung cấp đầu giải mã VM2M tùy chọn để trực quan hoá và giải mã quỹ đạo, nhưng nhấn mạnh rằng đầu giải mã này không phải là điều cần thiết để huấn luyện mô hình thế giới hoặc thực hiện đánh giá lập kế hoạch. Tất cả tài nguyên đã được công khai trên GitHub, Hugging Face và arXiv. (Nguồn: InFoQ)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim