Báo cáo kỹ thuật, trọng số, Demo đều được công khai, so sánh với Kling-Foley cũng không kém phần, cộng đồng mã nguồn mở cuối cùng đã có một khung video âm thanh có thể cạnh tranh rồi

Xem bản gốc
BlockBeatNews
Xiaomi mở nguồn mô hình lồng tiếng video ControlFoley, âm thanh muốn phối theo ý cá nhân quyết định
Dưới sự giám sát của Beating, nhóm Xiaomi đã mở nguồn khung phát triển âm thanh hình ảnh ControlFoley, nhấn mạnh khả năng kiểm soát: tạo ra âm thanh dựa trên hình ảnh, văn bản hoặc âm thanh tham khảo, đồng thời có thể thay đổi phong cách âm thanh và giữ đồng bộ âm thanh-hình ảnh. Phần nền sử dụng bộ mã hóa âm thanh hình ảnh không gian thời gian được cải tiến từ CAV-MAE, thực hiện tách rời thời gian và sắc thái âm thanh. Đánh giá đa nhiệm đạt trạng thái hàng đầu mở nguồn (SOTA), và cạnh tranh trong so sánh với Kling-Foley, nhưng vẫn còn khoảng cách về một số chỉ số KL trong Kling-Audio-Eval và MovieGen-Audio-Bench. Dự án đã công bố báo cáo kỹ thuật, mã nguồn, trọng số và Demo.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim