Chuyển từ wav2vec2 sang whisper-large-v3, khả năng đồng bộ khẩu hình đa ngôn ngữ được cải thiện rõ rệt, ranh giới giữa nghiên cứu học thuật và thương mại cần phải nhận thức rõ.

Xem bản gốc
CoinNetwork
Meituan mở nguồn LongCat-Video-Avatar 1.5 khung hình người số hóa rút gọn còn 8 bước
Nhóm LongCat của Meituan đã mở mã nguồn LongCat-Video-Avatar 1.5, tái cấu trúc quá trình tạo âm thanh và video để nâng cao độ ổn định không gian-thời gian và tốc độ suy luận. Thay thế wav2vec2 bằng whisper-large-v3, cải thiện đồng bộ khẩu hình và khả năng chống chịu đa ngôn ngữ; thông qua học tăng cường GRPO giảm thiểu các vết giả và lỗi khung hình, tăng tính nhất quán danh tính trong video dài. Áp dụng suy luận cuộn nhiều đoạn và ngữ cảnh trước, DMD2 với 8 bước chưng cất cân bằng giữa hiệu quả và độ trung thực. Khung này có thể tổng quát hóa đến phong cách hoạt hình/động vật, hỗ trợ âm thanh đơn/kép kênh, giấy phép MIT, chủ yếu dành cho mục đích học thuật, vui lòng kiểm tra khi sử dụng thương mại.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim