Từ Whisper đến DMD2 chưng cất, hệ thống công nghệ xây dựng khá vững chắc, đa ngôn ngữ và phong cách hoạt hình hóa tổng quát rất hấp dẫn đối với tôi, người làm sáng tạo thứ cấp như tôi.

Xem bản gốc
MeNews
Meituan mở nguồn LongCat-Video-Avatar1.5 khung hình người số hóa rút gọn còn 8 bước
Đội ngũ LongCat của Meituan đã mở mã nguồn LongCat-Video-Avatar 1.5, công bố toàn diện mã nguồn và trọng số. Thay thế bằng Whisper-large-v3 để nâng cao đồng bộ khẩu hình đa ngôn ngữ và tổng quát phong cách, sử dụng suy luận cuộn nhiều đoạn và tinh luyện ít bước dựa trên DMD2 để giảm suy luận xuống còn 8 bước, cân bằng tốc độ và độ trung thực. Qua 508 cặp dữ liệu nguồn, 770 người đánh giá với 13.240 quyết định và 10 chuyên gia đánh giá, đã rõ ràng nâng cao độ ổn định theo thời gian, tính nhất quán của danh tính và khẩu hình tự nhiên, và có thể tổng quát hóa sang phong cách hoạt hình và động vật, hỗ trợ nguyên bản âm thanh đơn/multi kênh. Giấy phép MIT, chủ yếu dành cho mục đích học thuật, thương mại cần kiểm tra riêng.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim