Chỉ khi bước suy luận mới thực hiện lập kế hoạch, mô hình nền không cần thay đổi, loại tối ưu này plug-and-play nếu có đủ sức mạnh tính toán, việc tạo video dài thật sự có thể biến từ luyện đan thành dự án.

Xem bản gốc
BlockBeatNews
Giới thiệu tìm kiếm AlphaGo, khung tạo video MCTS hoàn toàn mới, thời lượng video dài hơn Sora
Bài báo đề xuất giới thiệu khung Planning at Inference, sử dụng tìm kiếm cây Monte Carlo đa nhánh trong giai đoạn suy luận, xem việc tạo video dài như một vấn đề quyết định theo trình tự, thông qua việc dự đoán trước, lùi lại và truyền ngược phần thưởng để đánh giá nhiều đoạn khác nhau, giúp giảm đáng kể hiện tượng lệch ngữ nghĩa và tích tụ lỗi trong quá trình phân đoạn. Cấu trúc cây đa nhánh nâng cao hiệu quả tìm kiếm, đồng thời có thể là giải pháp tối ưu hóa trong quá trình suy luận hoàn toàn có thể tháo rời, không cần tinh chỉnh mô hình nền tảng. Trong thử nghiệm Cosmos-Predict2, mô hình tạo ra video liên tục chất lượng cao dài hơn 20 giây, vượt trội so với các phương pháp tìm kiếm tham lam/binding và Best-of-N về các chỉ số như tính bền vững của vật thể, tính liên tục theo thời gian và phù hợp với văn bản; so với Sora, Kling, thời lượng tăng 18% và 47%, chất lượng hình ảnh tương đương. Mặc dù chi phí tính toán cao, nếu nâng cấp mô hình nền và phần cứng, con đường này có triển vọng thúc đẩy việc tạo video dài hướng tới ứng dụng kỹ thuật.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim