Xiaomi mở nguồn OmniVoice: một mô hình sao chép giọng nói hỗ trợ 646 ngôn ngữ, đào tạo bằng dữ liệu hoàn toàn mã nguồn mở để chiến thắng hệ thống thương mại

robot
Đang tạo bản tóm tắt

Theo dõi hoạt động Beating, nhóm nghiên cứu AI của Xiaomi đã mở mã nguồn OmniVoice, một mô hình TTS (chuyển văn bản thành giọng nói) không cần mẫu hỗ trợ 646 ngôn ngữ, có khả năng clone giọng nói dựa trên vài giây âm thanh tham khảo. Chỉ cần một đoạn âm thanh tham khảo ngắn, có thể clone giọng nói, thậm chí qua các ngôn ngữ: cung cấp một đoạn ghi âm tiếng Trung, mô hình có thể dùng cùng một giọng nói để nói tiếng Nhật, Hàn hoặc các ngôn ngữ khác. Mã nguồn, trọng số và dữ liệu huấn luyện đều mở, giấy phép Apache-2.0.

Về kiến trúc, OmniVoice theo hướng tối giản. Toàn bộ mô hình chỉ có một Transformer hai chiều, trực tiếp ánh xạ từ văn bản đến mã âm học dạng mã bối (mã rời rạc của âm thanh), không cần quy trình hai bước chuyển đổi từ semantic token rồi đến acoustic token. Hai thiết kế chủ chốt giữ cho cấu trúc đơn giản này: chiến lược che phủ ngẫu nhiên toàn bộ mã bối để nâng cao hiệu quả huấn luyện, sử dụng tham số tiền huấn luyện của mô hình ngôn ngữ lớn để khởi tạo nhằm nâng cao độ chính xác của phát âm. Tốc độ suy luận gấp 40 lần thời gian thực, chạy trực tiếp trên PyTorch mà không cần tối ưu bổ sung.

Dữ liệu huấn luyện hoàn toàn từ 50 bộ dữ liệu âm thanh mã nguồn mở, sau lọc giảm nhiễu và chất lượng, tổng cộng 580.000 giờ. Các ngôn ngữ ít tài nguyên được đảm bảo hiệu quả huấn luyện bằng phương pháp lấy mẫu nâng cao động. Trong các thử nghiệm với 24 ngôn ngữ, độ tương đồng và khả năng hiểu của giọng nói OmniVoice đều vượt qua nhiều hệ thống thương mại. Trong thử nghiệm 102 ngôn ngữ, khả năng hiểu gần như hoặc vượt cả ghi âm thật. Ngay cả các ngôn ngữ nhỏ hơn 10 giờ dữ liệu huấn luyện cũng có thể tổng hợp.

Ngoài clone giọng nói, mô hình còn hỗ trợ tùy chỉnh giọng qua mô tả bằng văn bản (ví dụ “nam, trung niên, tông thấp cực đoan” hoặc “nữ, thanh niên, giọng Tứ Xuyên”), tự động giảm nhiễu qua âm thanh tham khảo có tiếng ồn, chèn các biểu tượng cảm xúc như cười, thở dài, cũng như chỉnh phát âm của các từ có nhiều âm tiết trong tiếng Trung và tiếng Anh, tên riêng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim