World-R1 通过强化学习让文生视频在不改架构、无需3D数据集的情况下实现3D几何一致性。核心：用 Depth Anything 3 重建场景3D高斯并从新视角渲染，与原视频对比，将重建误差、轨迹偏差和新视角语义可信度作为奖励，Flow-GRPO 学习。基座 Wan 2.1 派生 Small/Large，约3000条 prompts，无3D资产；训练中每100步插入动态微调。Large 提升7.91dB，Small 10.23dB，盲测几何一致性 92%，总体偏好 86%。代码见 GitHub，CC BY-NC-SA 4.0。

MeNews

2026-04-28 10:00:20

Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 28 tháng 4 (UTC+8), theo theo dõi Beating của Động sát, Viện Nghiên cứu Microsoft và nhóm của Đại học Zhejiang đề xuất World-R1, sử dụng học tăng cường để làm cho mô hình video sinh văn bản học được tính nhất quán hình học 3D, không sửa đổi kiến trúc mô hình, không dựa vào bộ dữ liệu 3D. Ý tưởng cốt lõi: sau khi tạo video, sử dụng mô hình cơ sở 3D đã được huấn luyện trước Depth Anything 3 để tái tạo cảnh vật thành Gaussian 3D (3DGS), sau đó từ góc nhìn mới render và so sánh với video gốc, kết hợp lỗi tái tạo, lệch quỹ đạo và độ tin cậy ngữ nghĩa của góc nhìn mới (được đánh giá bởi Qwen3-VL) thành tín hiệu thưởng, thông qua Flow-GRPO (một thuật toán học tăng cường phù hợp với mô hình phù hợp luồng) phản hồi lại cho mô hình video. Mô hình nền là Wan 2.1 mã nguồn mở (1.3B và 14B), huấn luyện lần lượt thành World-R1-Small và World-R1-Large. Dữ liệu huấn luyện chỉ khoảng 3000 prompt văn bản thuần túy, do Gemini tạo ra, không sử dụng bất kỳ tài sản 3D nào. Trong quá trình huấn luyện, mỗi 100 bước sẽ chèn một vòng “tinh chỉnh động”, tạm thời tắt thưởng 3D, chỉ giữ lại thưởng chất lượng hình ảnh, để tránh mô hình bị ép buộc về tính cứng hình học mà làm giảm khả năng vận động của nhân vật và các động thái phi cứng khác. Về chỉ số nhất quán 3D, PSNR của World-R1-Large tăng 7.91dB so với Wan 2.1 14B, phiên bản Small tăng 10.23dB. Chất lượng video chung của VBench không giảm mà còn tăng. Trong thử nghiệm mù 25 người, tỷ lệ thắng về tính nhất quán hình học là 92%, sự ưa thích tổng thể là 86%. Mã nguồn đã được mở trên GitHub, giấy phép là CC BY-NC-SA 4.0. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
327.31K Phổ biến
#
CryptoMarketsDipSlightly
228.84K Phổ biến
#
IsraelStrikesIranBTCPlunges
35.11K Phổ biến
#
#DailyPolymarketHotspot
659.94K Phổ biến
#
SolanaReleasesQuantumRoadmap
12.75M Phổ biến

Ghim

sơ đồ trang web

Microsoft World-R1: Sử dụng học tăng cường để dạy mô hình video "hiểu rõ" 3D, không thay đổi kiến trúc PSNR tăng 10dB

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SolanaReleasesQuantumRoadmap

Ghim