Meituan mở nguồn LongCat-Video-Avatar 1.5 khung hình người số hóa rút gọn còn 8 bước

robot
Đang tạo bản tóm tắt
Tin tức từ CoinWorld, nhóm Long猫 của Meituan đã mở nguồn khung tạo nhân số LongCat-Video-Avatar 1.5, tái cấu trúc thuật toán trích xuất âm thanh và tạo video, nhấn mạnh vào độ ổn định không gian-thời gian cấp công nghiệp và suy luận nhanh chóng. Khung đã thay thế bộ mã hóa wav2vec2 bằng bộ mã hóa âm thanh whisper-large-v3, nâng cao đồng bộ khẩu hình và động thái môi, đồng thời tăng cường khả năng tạo khẩu hình đa ngôn ngữ và xuyên ngôn ngữ một cách bền bỉ. Mô hình được tối ưu hóa qua học tăng cường GRPO, giảm thiểu biến dạng tay và các artefact như khung hình bị lỗi, nâng cao tính nhất quán danh tính trong video dài. Khung sử dụng suy luận cuộn nhiều đoạn, tận dụng video trước để xây dựng ngữ cảnh thời gian toàn cục, duy trì tính liên tục của nhân vật. Phần suy luận áp dụng kỹ thuật chưng cất ít bước DMD2, rút ngắn quá trình loại bỏ nhiễu trong quá trình tạo xuống còn 8 bước, cân bằng giữa hiệu quả suy luận và độ trung thực của hình ảnh. Đánh giá dựa trên 508 bộ mẫu hình ảnh và âm thanh ghép cặp, thu thập 13.240 lần đánh giá từ 770 người đánh giá, với 10 chuyên gia chấm điểm theo nhiều tiêu chí. Khung có thể tổng quát hóa sang phong cách hoạt hình và động vật, hỗ trợ đầu vào âm thanh đơn kênh và đa kênh, trọng số mô hình được phát hành theo giấy phép MIT, nội dung trình bày chỉ dành cho mục đích học thuật, việc thương mại cần kiểm tra các nội dung liên quan.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 11
  • 3
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
MoonlightColdWallet
· 05-22 10:09
GRPO Các chi tiết về bàn tay khá thú vị, vấn đề cố hữu của mô hình khuếch tán là thảm họa của ngón tay
Xem bản gốcTrả lời0
BudgetValidator
· 05-22 07:58
whisper-large-v3 thay thế đúng hơn nhiều về khẩu hình miệng, trước đây trong cảnh wav2vec2 đa ngôn ngữ thường không khớp đúng
Xem bản gốcTrả lời0
GateUser-6319729f
· 05-22 07:31
Giấy phép MIT được đánh giá cao, nhưng điều khoản thương mại cần xem kỹ để tránh rắc rối
Xem bản gốcTrả lời0
GateUser-af0ea0c9
· 05-22 07:26
Việc nâng cao độ ổn định không gian-thời gian có ý nghĩa hơn nhiều so với chỉ đơn thuần tăng FID, cuối cùng việc tạo video đã đi đúng hướng.
Xem bản gốcTrả lời0
SlippageSailor
· 05-22 07:19
Bạn có nên để dữ liệu chủ yếu về học thuật không? Muốn thử tái hiện xem sao
Xem bản gốcTrả lời0
GateUser-f4ae43e9
· 05-22 07:19
Thiết kế suy luận cuộn nhiều đoạn này thật thông minh, không bị sập mặt khi xem video dài là điều cực kỳ quan trọng.
Xem bản gốcTrả lời0
GotLiquidatedAgainLastNight.
· 05-22 07:10
LongCat tên này ai đặt vậy, kỹ sư của Meituan cũng thích mèo à
Xem bản gốcTrả lời0
DeltaSmile
· 05-22 07:10
Hỗ trợ đa kênh đơn và đa kênh, rất phù hợp để làm công cụ lồng tiếng.
Xem bản gốcTrả lời0
SeaSaltAirdropNotes
· 05-22 07:10
Nhận diện danh tính cuối cùng đã có người làm nghiêm túc, phần cuối của video đổi mặt thường xuyên đổi người trước đó
Xem bản gốcTrả lời0
CrystalBallForSentiment
· 05-22 07:10
DMD2 nâng cao hiệu suất bao nhiêu? Có dữ liệu độ trễ trên A100 không?
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim