Meituan mở nguồn LongCat-Video-Avatar1.5 khung hình người số hóa rút gọn còn 8 bước

robot
Đang tạo bản tóm tắt
ME AI Thông báo, theo theo dõi Beating, nhóm LongCat của Meituan đã mở nguồn khung xử lý âm thanh và tạo video chân dung LongCat-Video-Avatar 1.5, hoàn toàn mở mã nguồn và trọng số mô hình. Phiên bản nâng cấp này đã thay thế Wav2Vec2 bằng Whisper-Large làm bộ mã hóa âm thanh, nhằm cung cấp khả năng nhất quán danh tính trong video dài mạnh mẽ hơn và khả năng tổng quát phong cách rộng hơn. Khung xử lý chuyển sang bộ mã hóa âm thanh Whisper-large-v3 để nâng cao đồng bộ khẩu hình và động thái môi hàm. Các đặc trưng âm học do Whisper-large-v3 mang lại đã cải thiện đáng kể độ ổn định trong việc tạo khẩu hình đa ngôn ngữ và xuyên ngôn ngữ. Để nâng cao độ ổn định theo thời gian, khung xử lý sử dụng suy luận cuộn nhiều đoạn trong quá trình tạo video dài để duy trì tính liên tục của nhân vật. Trong quá trình suy luận, kỹ thuật chưng cất giảm số bước dựa trên DMD2 đã được giới thiệu, rút ngắn quá trình loại bỏ nhiễu xuống còn 8 bước, đồng thời tăng tốc suy luận lên 8 NFE, cân bằng giữa hiệu quả suy luận và độ trung thực của hình ảnh. Đánh giá mô hình dựa trên 508 cặp nguồn hình ảnh và âm thanh. Đánh giá crowdsourcing đã mời 770 người đánh giá và thu thập 13,240 lượt nhận xét, cùng với 10 chuyên gia đánh giá theo các tiêu chí về tính hợp lý vật lý, phối hợp, ổn định theo thời gian và nhất quán danh tính. Trang chính thức đã trình diễn so sánh cùng HeyGen, Kling Avatar 2.0, OmniHuman-1.5, nhấn mạnh cải thiện về độ ổn định theo thời gian, nhất quán danh tính và khẩu hình tự nhiên. Ngoài nhân vật chân thực, khung còn có thể tổng quát hóa sang phong cách hoạt hình và động vật, đồng thời hỗ trợ nguyên bản đầu vào âm thanh đơn kênh và đa kênh. Trọng số mô hình được phát hành theo giấy phép MIT. Đồng thời, tuyên bố đạo đức của trang dự án cho biết nội dung tạo ra chỉ dành cho mục đích học thuật, không cho phép sử dụng thương mại. Việc thương mại thực tế vẫn cần kiểm tra riêng về trọng số, mã nguồn, tài nguyên và giới hạn nội dung tạo ra. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 12
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-af0ea0c9
· 3giờ trước
Việc thương mại còn phải bàn thêm, đó là chiêu cũ của các tập đoàn lớn mở mã nguồn mở
Xem bản gốcTrả lời0
HedgeHedgeBaby
· 6giờ trước
Hỗ trợ đa kênh nguyên bản, người làm cắt đoạn podcast cần cái này
Xem bản gốcTrả lời0
LendingRateAnxiety
· 6giờ trước
10 chuyên gia đánh giá cụ thể đã đánh giá gì, có nói rõ trong bài báo không
Xem bản gốcTrả lời0
TheWaveOfRasterization
· 7giờ trước
Giấy phép MIT được đánh giá cao, thân thiện với học thuật
Xem bản gốcTrả lời0
GlassBottleFeather
· 7giờ trước
DMD2 chưng cất hiện đã trở thành tiêu chuẩn? Cảm giác như tất cả các nhà đều đang sử dụng
Xem bản gốcTrả lời0
ReboundAtTheStreetCornerAfter
· 7giờ trước
动物风格是什么鬼,猫说话?
Trả lời0
GateUser-dd8dffab
· 8giờ trước
Việc nâng cao tính nhất quán danh tính là rất quan trọng, trước đây thay đổi góc nhìn dễ khiến người khác nghĩ không phải cùng một người
Xem bản gốcTrả lời0
GateUser-c29c3db9
· 8giờ trước
770 nhà đánh giá 13240 lần đánh giá, quy mô đánh giá này có nghiêm túc không
Xem bản gốcTrả lời0
BridgeTroll
· 8giờ trước
Phong cách hoạt hình hóa là một phần thưởng nhỏ, cộng đồng sáng tạo thứ cấp sẽ sôi động rồi
Xem bản gốcTrả lời0
CandleAfterTheRain
· 8giờ trước
Thiết kế suy luận lăn này thật tuyệt vời, video dài không bị sập nữa
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim