Voxtral: Phần mềm TTS mã nguồn mở vượt qua ElevenLabs trong thử nghiệm mù, có thể chạy trên laptop

robot
Đang tạo bản tóm tắt

Tiêu đề

Voxtral của Mistral: Thử nghiệm mù thắng ElevenLabs, có thể chạy tại chỗ.

Tóm tắt

Rohan Paul chú ý đến một tập hợp dữ liệu so sánh: Trong cuộc thử nghiệm mù về nhân giọng đa ngôn ngữ, các đánh giá viên đã chọn Voxtral mới ra mắt của Mistral 70% thời gian dựa trên độ tự nhiên, độ chính xác của giọng và sự tương đồng. 4 tỷ tham số, nhân giọng từ âm thanh tham khảo trong 3 giây, hỗ trợ 9 ngôn ngữ, độ trễ 70ms trên laptop. Tải trọng mở cho phép doanh nghiệp tự chạy mà không cần trả tiền theo số lượng API.

Điểm chính

  • Tỷ lệ ưu tiên 70%: Cuộc thử nghiệm mù của các đánh giá viên bản ngữ ở 9 ngôn ngữ, đánh giá độ tự nhiên, độ chính xác của giọng và sự tương đồng với giọng gốc.
  • Đối thủ nào: Thắng ElevenLabs Flash v2.5, hòa với v3.
  • Đặc điểm kỹ thuật: Kiến trúc Transformer, nắm bắt tốt hơn các thói quen nói như ngừng nghỉ và ngữ điệu; tải trọng mở có thể chạy tại chỗ, tiết kiệm phí API, không bị nhà cung cấp kìm kẹp.
  • Vấn đề về giấy phép: Mô hình có thể thương mại hóa, nhưng âm thanh tham khảo là CC BY-NC. Việc lấy giọng của người khác làm sản phẩm, luật pháp chưa rõ ràng có thể thực hiện được hay không.

Tại sao nói lần này khác biệt

  • Chi phí và quyền kiểm soát
    • ElevenLabs: Tính phí theo ký tự, sử dụng máy chủ của họ và API đóng.
    • Voxtral: Tải trọng để tự chạy, không tính phí theo lượt, toàn bộ chuỗi đều tự kiểm soát.
  • Có thể làm gì
    • Các tình huống như agent giọng nói, phiên dịch đồng thời, lồng ghép giọng nói, tải trọng mở giúp thử nghiệm và mở rộng quy mô rẻ hơn, việc tuân thủ quyền riêng tư cũng dễ xử lý hơn.

So sánh nhanh

Kích thước Voxtral ElevenLabs
Truy cập mô hình Tải trọng mở, có thể chạy tại chỗ API đóng
Độ trễ Khoảng 70ms trên laptop Tùy thuộc vào đám mây và gói
Ngôn ngữ 9 loại Đa ngôn ngữ (bài viết này không đề cập chi tiết)
Nhân giọng 3 giây âm thanh tham khảo Hỗ trợ (bài viết này không mở rộng)
Đánh giá Thử nghiệm mù 70% ưu tiên Flash v2.5 thua, v3 gần như tương đương
Giới hạn thương mại Âm thanh tham khảo CC BY-NC Giới hạn giấy phép và tính phí của nền tảng

Phương pháp và chi tiết đánh giá xem trong blog Mistral, tài liệu và kho Hugging Face.

Bối cảnh ngành

Lần phát hành này lại là chủ đề cũ mở vs. đóng. Mistral chuyển từ mô hình ngôn ngữ sang giọng nói, tiếp tục thúc đẩy bố cục đa phương thức. Cần ứng dụng giọng nói ổn định, có thể kiểm soát, chi phí có thể dự đoán, tải trọng mở + tự triển khai đã tìm thấy một điểm cân bằng giữa chi phí, hiệu suất và tuân thủ.

Rủi ro

  • Sự không chắc chắn về giấy phép: Âm thanh tham khảo là CC BY-NC, việc sao chép giọng của người khác cho sản phẩm thương mại, quyền tác giả và quyền hình ảnh tính thế nào vẫn chưa rõ ràng.
  • Phạm vi so sánh hạn chế: Chỉ so sánh với ElevenLabs, không thử nghiệm Coqui, Bark và các TTS mở khác.

Đánh giá tác động

  • Tầm quan trọng: Cao
  • Thể loại: Phát hành mô hình, mở, ảnh hưởng thị trường

Đánh giá: Các đội ngũ cần chuỗi giọng nói có thể kiểm soát, chi phí có thể dự đoán, vào thời điểm này không phải là quá muộn. Lợi thế rõ ràng cho các nhà phát triển và Builder cấp doanh nghiệp; quan hệ giao dịch thuần túy không bị ảnh hưởng nhiều.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$0.1Người nắm giữ:2
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Ghim