TTS mã nguồn mở cuối cùng cũng đã chuyển sang phát trực tiếp theo luồng, Higgs Audio v3 kiểm soát độ trễ khá tốt, chơi đùa với sao chép không mẫu + nhãn cảm xúc khá phức tạp

Xem bản gốc
CoinNetwork
Boson AI mở mã mô hình âm thanh 4B Higgs Audio v3, hỗ trợ kiểm soát cảm xúc theo luồng
Boson AI mã nguồn mở trọng số Higgs Audio v3 TTS, dựa trên Qwen3-4B, khoảng 4 tỷ tham số, tối ưu cho hội thoại theo dòng thời gian thực, bắt đầu tổng hợp khi văn bản chưa hoàn thành để giảm độ trễ. Hỗ trợ hơn 100 ngôn ngữ/giọng nói, tỷ lệ lỗi từ vựng và chữ cái giảm xuống còn hàng đơn vị, hỗ trợ sao chép giọng nói không mẫu và có thể nhúng hơn 20 cảm xúc cùng các nhãn điều khiển đa dạng trong văn bản. Cùng LMSYS thực hiện tối ưu toàn diện trong khung SGLang-Omni, tốc độ thực thời gian thực đơn trên H100 là 0.147. Trọng số đã được phát hành trên Hugging Face, sử dụng giấy phép nghiên cứu phi thương mại.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim