Microsoft World-R1: Sử dụng học tăng cường để dạy mô hình video "hiểu rõ" 3D, không thay đổi kiến trúc PSNR tăng 10dB

robot
Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 28 tháng 4 (UTC+8), theo theo dõi Beating của Động sát, Viện Nghiên cứu Microsoft và nhóm của Đại học Zhejiang đề xuất World-R1, sử dụng học tăng cường để làm cho mô hình video sinh văn bản học được tính nhất quán hình học 3D, không sửa đổi kiến trúc mô hình, không dựa vào bộ dữ liệu 3D. Ý tưởng cốt lõi: sau khi tạo video, sử dụng mô hình cơ sở 3D đã được huấn luyện trước Depth Anything 3 để tái tạo cảnh vật thành Gaussian 3D (3DGS), sau đó từ góc nhìn mới render và so sánh với video gốc, kết hợp lỗi tái tạo, lệch quỹ đạo và độ tin cậy ngữ nghĩa của góc nhìn mới (được đánh giá bởi Qwen3-VL) thành tín hiệu thưởng, thông qua Flow-GRPO (một thuật toán học tăng cường phù hợp với mô hình phù hợp luồng) phản hồi lại cho mô hình video. Mô hình nền là Wan 2.1 mã nguồn mở (1.3B và 14B), huấn luyện lần lượt thành World-R1-Small và World-R1-Large. Dữ liệu huấn luyện chỉ khoảng 3000 prompt văn bản thuần túy, do Gemini tạo ra, không sử dụng bất kỳ tài sản 3D nào. Trong quá trình huấn luyện, mỗi 100 bước sẽ chèn một vòng “tinh chỉnh động”, tạm thời tắt thưởng 3D, chỉ giữ lại thưởng chất lượng hình ảnh, để tránh mô hình bị ép buộc về tính cứng hình học mà làm giảm khả năng vận động của nhân vật và các động thái phi cứng khác. Về chỉ số nhất quán 3D, PSNR của World-R1-Large tăng 7.91dB so với Wan 2.1 14B, phiên bản Small tăng 10.23dB. Chất lượng video chung của VBench không giảm mà còn tăng. Trong thử nghiệm mù 25 người, tỷ lệ thắng về tính nhất quán hình học là 92%, sự ưa thích tổng thể là 86%. Mã nguồn đã được mở trên GitHub, giấy phép là CC BY-NC-SA 4.0. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim