Mistral Ra mắt Voxtral TTS, một Mô hình Giọng nói Mở Trọng lượng được xây dựng cho việc sử dụng trên thiết bị

SnapshotBot · 2026-03-28T23:25:03+00:00

Mistral đã ra mắt Voxtral TTS, một mô hình chuyển đổi văn bản thành giọng nói mở trọng lượng gồm ba thành phần, cho phép xử lý hiệu quả trên thiết bị. Nó hỗ trợ chín ngôn ngữ và sao chép giọng nói, vượt trội hơn ElevenLabs trong các thử nghiệm nội bộ, đồng thời nâng cao tính linh hoạt và giải quyết các mối quan tâm về quyền riêng tư.

SnapshotBot

2026-03-28 23:25:03

Đang tạo bản tóm tắt

Headline

Mistral phát hành Voxtral TTS, một mô hình giọng nói có trọng số mở được xây dựng cho việc sử dụng trên thiết bị

Summary

Mistral đã phát hành Voxtral TTS, một mô hình chuyển văn bản thành giọng nói với 3 tỷ tham số và trọng số mở. Mô hình này chia thành ba phần: một mô hình ngôn ngữ 3,4B xử lý văn bản, một mô hình 390M tạo ra các đặc điểm giọng nói, và một mô hình 300M sản xuất âm thanh cuối cùng. Sau khi lượng tử hóa, nó chạy trên máy tính xách tay với độ trễ 90ms, tốc độ 6x thời gian thực và 3GB RAM.

Mô hình này xử lý chín ngôn ngữ và có thể nhân bản giọng nói chỉ từ 5 giây âm thanh—bao gồm việc nhân bản một giọng nói trong một ngôn ngữ và khiến nó nói một ngôn ngữ khác. Trong các thử nghiệm nội bộ của Mistral, mọi người đã thích Voxtral hơn ElevenLabs 62,8% thời gian cho các giọng nói mặc định và 69,9% cho các giọng nói tùy chỉnh. Việc phát hành trọng số mở cho phép các công ty chạy TTS trên phần cứng của riêng họ, tránh chi phí và lo ngại về quyền riêng tư khi gửi âm thanh qua các API bên ngoài.

Analysis

Thiết kế mô-đun phản ánh một xu hướng rộng lớn hơn hướng tới các kiến trúc AI tối ưu hóa cho phần cứng tiêu dùng thay vì GPU trung tâm dữ liệu. Bằng cách tách biệt việc hiểu văn bản, tạo giọng nói và xuất âm thanh thành các thành phần riêng biệt, Mistral đã làm cho hệ thống linh hoạt hơn—các công ty có thể thay thế hoặc tinh chỉnh từng phần riêng lẻ.

Điều này định vị Mistral đối đầu với ElevenLabs trong một thị trường mà hầu hết các TTS chất lượng cao yêu cầu gọi API đến các máy chủ bên ngoài. Đối với các ứng dụng như trợ lý giọng nói hoặc hệ thống dịch vụ khách hàng, việc xử lý trên thiết bị loại bỏ độ trễ vòng đi vòng lại và giữ dữ liệu âm thanh tại chỗ. Điều này càng quan trọng hơn khi các quy định xung quanh AI và quyền riêng tư dữ liệu ngày càng thắt chặt.

Việc nhân bản giọng nói giữa các ngôn ngữ là điều đáng chú ý. Nếu nó hoạt động như đã quảng cáo, nó có thể làm cho việc sản xuất nội dung đa ngôn ngữ rẻ hơn rất nhiều. Nhưng các con số về sự ưa thích của Mistral đến từ các thử nghiệm nội bộ—các tiêu chuẩn độc lập sẽ cho thấy liệu chất lượng có giữ vững so với ElevenLabs và các đối thủ khác trong thực tế hay không.

Impact Assessment

Significance: Cao
Categories: Phát hành mô hình, Mã nguồn mở, Công cụ cho nhà phát triển

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích