Voxtral: TTS sumber terbuka yang mengalahkan ElevenLabs dalam pengujian buta, bisa dijalankan di laptop

SnapshotBot · 2026-03-28T19:25:01+00:00

Mistral yang meluncurkan Voxtral tampil unggul dalam pengujian buta peniruan suara multibahasa, dengan 70% penilai lebih menyukai tingkat kealamian dan kemiripannya, berhasil mengalahkan ElevenLabs. Selain itu, Voxtral memiliki bobot sumber terbuka, mendukung penyebaran lokal, mengurangi biaya dan risiko privasi, tetapi dalam penggunaan komersial izin terhadap suara referensi masih perlu diklarifikasi.

SnapshotBot

2026-03-28 19:25:01

Pembuatan abstrak sedang berlangsung

Judul

Voxtral dari Mistral: Tes buta mengalahkan ElevenLabs, dan dapat dijalankan secara lokal.

Ringkasan

Rohan Paul mencatat sekelompok data perbandingan: dalam tes buta kloning suara multibahasa, penilai memilih Voxtral baru dari Mistral 70% dari waktu dalam aspek naturalitas, akurasi aksen, dan kesamaan. 4 miliar parameter, kloning suara dalam 3 detik dengan audio referensi, mendukung 9 bahasa, dengan latensi 70ms di laptop. Bobot sumber terbuka berarti perusahaan dapat menjalankannya sendiri, tanpa membayar berdasarkan jumlah API.

Poin Kunci

Tingkat Preferensi 70%: Tes buta oleh penilai penutur asli dalam 9 bahasa, melihat naturalitas, akurasi aksen, dan kesamaan dengan suara asli.
Mengalahkan Siapa: Mengalahkan ElevenLabs Flash v2.5, seimbang dengan v3.
Karakteristik Teknis: Arsitektur Transformer, menangkap kebiasaan berbicara seperti jeda dan intonasi dengan lebih detail; bobot sumber terbuka dapat dijalankan secara lokal, menghemat biaya API, tidak terjebak oleh vendor.
Masalah Lisensi: Model itu sendiri dapat digunakan untuk komersial, tetapi audio referensi adalah CC BY-NC. Menggunakan suara orang lain untuk produk, secara hukum tidak jelas apakah itu diperbolehkan.

Mengapa Ini Berbeda

Biaya dan Kontrol
- ElevenLabs: Membayar berdasarkan karakter, menggunakan server mereka dan API tertutup.
- Voxtral: Unduh bobot dan jalankan sendiri, tanpa biaya per penggunaan, kontrol penuh atas seluruh proses.
Apa yang Dapat Dilakukan
- Dalam skenario agen suara, penerjemahan simultan, dan pengisi suara, bobot sumber terbuka membuat percobaan dan skala lebih murah, serta lebih mudah untuk menangani kepatuhan privasi.

Perbandingan Cepat

Dimensi	Voxtral	ElevenLabs
Akses Model	Bobot sumber terbuka, dapat dijalankan secara lokal	API tertutup
Latensi	Sekitar 70ms di laptop	Tergantung pada cloud dan paket
Bahasa	9 bahasa	Multibahasa (tidak dijelaskan lebih dalam dalam artikel ini)
Kloning Suara	3 detik audio referensi	Didukung (tidak dijelaskan lebih dalam dalam artikel ini)
Penilaian	Tes buta 70% preferensi	Flash v2.5 kalah, v3 hampir sama
Pembatasan Komersial	Audio referensi CC BY-NC	Pembatasan lisensi dan biaya platform

Metode dan detail penilaian dapat dilihat di blog Mistral, dokumentasi, dan repositori Hugging Face.

Latar Belakang Industri

Peluncuran ini adalah topik lama sumber terbuka vs. tertutup. Mistral bergerak dari model bahasa ke suara, mengembangkan tata letak multimodal. Memerlukan aplikasi suara yang stabil, dapat dikontrol, dan biaya yang dapat diprediksi, bobot sumber terbuka + penerapan sendiri menemukan titik keseimbangan antara biaya, kinerja, dan kepatuhan.

Risiko

Ketidakpastian Lisensi: Audio referensi adalah CC BY-NC, kloning suara orang lain untuk produk komersial, bagaimana hak cipta dan hak atas gambar dihitung masih belum jelas.
Ruang Perbandingan Terbatas: Hanya dibandingkan dengan ElevenLabs, tidak diuji dengan Coqui, Bark, dan TTS sumber terbuka lainnya.

Penilaian Dampak

Pentingnya: Tinggi
Kategori: Peluncuran model, sumber terbuka, dampak pasar

Kesimpulan: Tim yang membutuhkan rantai suara yang dapat dikontrol dan biaya yang dapat diprediksi, sekarang masuk tidak terlalu terlambat. Pengembang dan Builder tingkat perusahaan memiliki keunggulan yang jelas; hubungan yang murni berfokus pada transaksi tidak terlalu berpengaruh.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka