Nhóm LongCat của Meituan đã mở mã nguồn LongCat-Video-Avatar 1.5, tái cấu trúc quá trình tạo âm thanh và video để nâng cao độ ổn định không gian-thời gian và tốc độ suy luận. Thay thế wav2vec2 bằng whisper-large-v3, cải thiện đồng bộ khẩu hình và khả năng chống chịu đa ngôn ngữ; thông qua học tăng cường GRPO giảm thiểu các vết giả và lỗi khung hình, tăng tính nhất quán danh tính trong video dài. Áp dụng suy luận cuộn nhiều đoạn và ngữ cảnh trước, DMD2 với 8 bước chưng cất cân bằng giữa hiệu quả và độ trung thực. Khung này có thể tổng quát hóa đến phong cách hoạt hình/động vật, hỗ trợ âm thanh đơn/kép kênh, giấy phép MIT, chủ yếu dành cho mục đích học thuật, vui lòng kiểm tra khi sử dụng thương mại.

CoinNetwork

2026-05-22 07:03:57

Đang tạo bản tóm tắt

Tin tức từ CoinWorld, nhóm Long猫 của Meituan đã mở nguồn khung tạo nhân số LongCat-Video-Avatar 1.5, tái cấu trúc thuật toán trích xuất âm thanh và tạo video, nhấn mạnh vào độ ổn định không gian-thời gian cấp công nghiệp và suy luận nhanh chóng. Khung đã thay thế bộ mã hóa wav2vec2 bằng bộ mã hóa âm thanh whisper-large-v3, nâng cao đồng bộ khẩu hình và động thái môi, đồng thời tăng cường khả năng tạo khẩu hình đa ngôn ngữ và xuyên ngôn ngữ một cách bền bỉ. Mô hình được tối ưu hóa qua học tăng cường GRPO, giảm thiểu biến dạng tay và các artefact như khung hình bị lỗi, nâng cao tính nhất quán danh tính trong video dài. Khung sử dụng suy luận cuộn nhiều đoạn, tận dụng video trước để xây dựng ngữ cảnh thời gian toàn cục, duy trì tính liên tục của nhân vật. Phần suy luận áp dụng kỹ thuật chưng cất ít bước DMD2, rút ngắn quá trình loại bỏ nhiễu trong quá trình tạo xuống còn 8 bước, cân bằng giữa hiệu quả suy luận và độ trung thực của hình ảnh. Đánh giá dựa trên 508 bộ mẫu hình ảnh và âm thanh ghép cặp, thu thập 13.240 lần đánh giá từ 770 người đánh giá, với 10 chuyên gia chấm điểm theo nhiều tiêu chí. Khung có thể tổng quát hóa sang phong cách hoạt hình và động vật, hỗ trợ đầu vào âm thanh đơn kênh và đa kênh, trọng số mô hình được phát hành theo giấy phép MIT, nội dung trình bày chỉ dành cho mục đích học thuật, việc thương mại cần kiểm tra các nội dung liên quan.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

10 thích

Phần thưởng
10
11
3
Retweed

Bình luận

Thêm một bình luận

MoonlightColdWallet

· 05-22 10:09

GRPO Các chi tiết về bàn tay khá thú vị, vấn đề cố hữu của mô hình khuếch tán là thảm họa của ngón tay

Xem bản gốcTrả lời0

BudgetValidator

· 05-22 07:58

whisper-large-v3 thay thế đúng hơn nhiều về khẩu hình miệng, trước đây trong cảnh wav2vec2 đa ngôn ngữ thường không khớp đúng

Xem bản gốcTrả lời0

GateUser-6319729f

· 05-22 07:31

Giấy phép MIT được đánh giá cao, nhưng điều khoản thương mại cần xem kỹ để tránh rắc rối

Xem bản gốcTrả lời0

GateUser-af0ea0c9

· 05-22 07:26

Việc nâng cao độ ổn định không gian-thời gian có ý nghĩa hơn nhiều so với chỉ đơn thuần tăng FID, cuối cùng việc tạo video đã đi đúng hướng.

Xem bản gốcTrả lời0

SlippageSailor

· 05-22 07:19

Bạn có nên để dữ liệu chủ yếu về học thuật không? Muốn thử tái hiện xem sao

Xem bản gốcTrả lời0

GateUser-f4ae43e9

· 05-22 07:19

Thiết kế suy luận cuộn nhiều đoạn này thật thông minh, không bị sập mặt khi xem video dài là điều cực kỳ quan trọng.

Xem bản gốcTrả lời0

GotLiquidatedAgainLastNight.

· 05-22 07:10

LongCat tên này ai đặt vậy, kỹ sư của Meituan cũng thích mèo à

Xem bản gốcTrả lời0

DeltaSmile

· 05-22 07:10

Hỗ trợ đa kênh đơn và đa kênh, rất phù hợp để làm công cụ lồng tiếng.

Xem bản gốcTrả lời0

SeaSaltAirdropNotes

· 05-22 07:10

Nhận diện danh tính cuối cùng đã có người làm nghiêm túc, phần cuối của video đổi mặt thường xuyên đổi người trước đó

Xem bản gốcTrả lời0

CrystalBallForSentiment

· 05-22 07:10

DMD2 nâng cao hiệu suất bao nhiêu? Có dữ liệu độ trễ trên A100 không?

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
319.61K Phổ biến
#
PlatinumCardCreatorExclusive
114.76K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.03K Phổ biến
#
#DailyPolymarketHotspot
1.05M Phổ biến
#
GateSquarePizzaDay
648.72K Phổ biến

Đã ghim

sơ đồ trang web

Meituan mở nguồn LongCat-Video-Avatar 1.5 khung hình người số hóa rút gọn còn 8 bước

Chủ đề thịnh hành

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Đã ghim