Voxtral: TTS sumber terbuka yang mengalahkan ElevenLabs dalam pengujian buta, bisa dijalankan di laptop

robot
Pembuatan abstrak sedang berlangsung

Judul

Voxtral dari Mistral: Tes buta mengalahkan ElevenLabs, dan dapat dijalankan secara lokal.

Ringkasan

Rohan Paul mencatat sekelompok data perbandingan: dalam tes buta kloning suara multibahasa, penilai memilih Voxtral baru dari Mistral 70% dari waktu dalam aspek naturalitas, akurasi aksen, dan kesamaan. 4 miliar parameter, kloning suara dalam 3 detik dengan audio referensi, mendukung 9 bahasa, dengan latensi 70ms di laptop. Bobot sumber terbuka berarti perusahaan dapat menjalankannya sendiri, tanpa membayar berdasarkan jumlah API.

Poin Kunci

  • Tingkat Preferensi 70%: Tes buta oleh penilai penutur asli dalam 9 bahasa, melihat naturalitas, akurasi aksen, dan kesamaan dengan suara asli.
  • Mengalahkan Siapa: Mengalahkan ElevenLabs Flash v2.5, seimbang dengan v3.
  • Karakteristik Teknis: Arsitektur Transformer, menangkap kebiasaan berbicara seperti jeda dan intonasi dengan lebih detail; bobot sumber terbuka dapat dijalankan secara lokal, menghemat biaya API, tidak terjebak oleh vendor.
  • Masalah Lisensi: Model itu sendiri dapat digunakan untuk komersial, tetapi audio referensi adalah CC BY-NC. Menggunakan suara orang lain untuk produk, secara hukum tidak jelas apakah itu diperbolehkan.

Mengapa Ini Berbeda

  • Biaya dan Kontrol
    • ElevenLabs: Membayar berdasarkan karakter, menggunakan server mereka dan API tertutup.
    • Voxtral: Unduh bobot dan jalankan sendiri, tanpa biaya per penggunaan, kontrol penuh atas seluruh proses.
  • Apa yang Dapat Dilakukan
    • Dalam skenario agen suara, penerjemahan simultan, dan pengisi suara, bobot sumber terbuka membuat percobaan dan skala lebih murah, serta lebih mudah untuk menangani kepatuhan privasi.

Perbandingan Cepat

Dimensi Voxtral ElevenLabs
Akses Model Bobot sumber terbuka, dapat dijalankan secara lokal API tertutup
Latensi Sekitar 70ms di laptop Tergantung pada cloud dan paket
Bahasa 9 bahasa Multibahasa (tidak dijelaskan lebih dalam dalam artikel ini)
Kloning Suara 3 detik audio referensi Didukung (tidak dijelaskan lebih dalam dalam artikel ini)
Penilaian Tes buta 70% preferensi Flash v2.5 kalah, v3 hampir sama
Pembatasan Komersial Audio referensi CC BY-NC Pembatasan lisensi dan biaya platform

Metode dan detail penilaian dapat dilihat di blog Mistral, dokumentasi, dan repositori Hugging Face.

Latar Belakang Industri

Peluncuran ini adalah topik lama sumber terbuka vs. tertutup. Mistral bergerak dari model bahasa ke suara, mengembangkan tata letak multimodal. Memerlukan aplikasi suara yang stabil, dapat dikontrol, dan biaya yang dapat diprediksi, bobot sumber terbuka + penerapan sendiri menemukan titik keseimbangan antara biaya, kinerja, dan kepatuhan.

Risiko

  • Ketidakpastian Lisensi: Audio referensi adalah CC BY-NC, kloning suara orang lain untuk produk komersial, bagaimana hak cipta dan hak atas gambar dihitung masih belum jelas.
  • Ruang Perbandingan Terbatas: Hanya dibandingkan dengan ElevenLabs, tidak diuji dengan Coqui, Bark, dan TTS sumber terbuka lainnya.

Penilaian Dampak

  • Pentingnya: Tinggi
  • Kategori: Peluncuran model, sumber terbuka, dampak pasar

Kesimpulan: Tim yang membutuhkan rantai suara yang dapat dikontrol dan biaya yang dapat diprediksi, sekarang masuk tidak terlalu terlambat. Pengembang dan Builder tingkat perusahaan memiliki keunggulan yang jelas; hubungan yang murni berfokus pada transaksi tidak terlalu berpengaruh.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan