Phòng thí nghiệm AI của Xiaomi mở nguồn OmniVoice là một hệ thống TTS sao chép giọng nói không mẫu cho 646 ngôn ngữ. Chỉ sử dụng một Transformer hai chiều để ánh xạ văn bản thành các token âm học rời rạc, không cần quy trình hai giai đoạn. Cốt lõi là việc che phủ ngẫu nhiên toàn bộ từ điển mã và khởi tạo bằng các tham số đã được huấn luyện trước của mô hình lớn, cho phép suy luận nhanh gấp 40 lần, có thể chạy trên PyTorch. Việc huấn luyện đến từ 50 bộ dữ liệu mã nguồn mở, 580.000 giờ, sử dụng kỹ thuật tăng cường mẫu cho các ngôn ngữ ít tài nguyên. Kiểm thử trên 24 ngôn ngữ cho kết quả vượt trội so với nhiều hệ thống thương mại, gần như ghi âm thực tế trên 102 ngôn ngữ; còn có thể tùy chỉnh giọng nói bằng mô tả văn bản, tự động giảm tiếng ồn, ký hiệu cảm xúc và chỉnh sửa danh từ riêng.

BlockBeatNews

2026-05-07 10:35:45

Đang tạo bản tóm tắt

Theo dõi hoạt động Beating, nhóm nghiên cứu AI của Xiaomi đã mở mã nguồn OmniVoice, một mô hình TTS (chuyển văn bản thành giọng nói) không cần mẫu hỗ trợ 646 ngôn ngữ, có khả năng clone giọng nói dựa trên vài giây âm thanh tham khảo. Chỉ cần một đoạn âm thanh tham khảo ngắn, có thể clone giọng nói, thậm chí qua các ngôn ngữ: cung cấp một đoạn ghi âm tiếng Trung, mô hình có thể dùng cùng một giọng nói để nói tiếng Nhật, Hàn hoặc các ngôn ngữ khác. Mã nguồn, trọng số và dữ liệu huấn luyện đều mở, giấy phép Apache-2.0.

Về kiến trúc, OmniVoice theo hướng tối giản. Toàn bộ mô hình chỉ có một Transformer hai chiều, trực tiếp ánh xạ từ văn bản đến mã âm học dạng mã bối (mã rời rạc của âm thanh), không cần quy trình hai bước chuyển đổi từ semantic token rồi đến acoustic token. Hai thiết kế chủ chốt giữ cho cấu trúc đơn giản này: chiến lược che phủ ngẫu nhiên toàn bộ mã bối để nâng cao hiệu quả huấn luyện, sử dụng tham số tiền huấn luyện của mô hình ngôn ngữ lớn để khởi tạo nhằm nâng cao độ chính xác của phát âm. Tốc độ suy luận gấp 40 lần thời gian thực, chạy trực tiếp trên PyTorch mà không cần tối ưu bổ sung.

Dữ liệu huấn luyện hoàn toàn từ 50 bộ dữ liệu âm thanh mã nguồn mở, sau lọc giảm nhiễu và chất lượng, tổng cộng 580.000 giờ. Các ngôn ngữ ít tài nguyên được đảm bảo hiệu quả huấn luyện bằng phương pháp lấy mẫu nâng cao động. Trong các thử nghiệm với 24 ngôn ngữ, độ tương đồng và khả năng hiểu của giọng nói OmniVoice đều vượt qua nhiều hệ thống thương mại. Trong thử nghiệm 102 ngôn ngữ, khả năng hiểu gần như hoặc vượt cả ghi âm thật. Ngay cả các ngôn ngữ nhỏ hơn 10 giờ dữ liệu huấn luyện cũng có thể tổng hợp.

Ngoài clone giọng nói, mô hình còn hỗ trợ tùy chỉnh giọng qua mô tả bằng văn bản (ví dụ “nam, trung niên, tông thấp cực đoan” hoặc “nữ, thanh niên, giọng Tứ Xuyên”), tự động giảm nhiễu qua âm thanh tham khảo có tiếng ồn, chèn các biểu tượng cảm xúc như cười, thở dài, cũng như chỉnh phát âm của các từ có nhiều âm tiết trong tiếng Trung và tiếng Anh, tên riêng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
565.99K Phổ biến
#
BTCPullback
106.31M Phổ biến
#
IsraelStrikesIranBTCPlunges
43.81K Phổ biến
#
CLARITYActStalled
3.28M Phổ biến
#
CryptoStocksRally
1.42M Phổ biến

Ghim

sơ đồ trang web

Xiaomi mở nguồn OmniVoice: một mô hình sao chép giọng nói hỗ trợ 646 ngôn ngữ, đào tạo bằng dữ liệu hoàn toàn mã nguồn mở để chiến thắng hệ thống thương mại

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Ghim