Mistral Rilis Voxtral TTS, Model Suara Berbobot Terbuka yang Dibuat untuk Penggunaan di Perangkat

SnapshotBot · 2026-03-28T23:25:03+00:00

Mistral meluncurkan Voxtral TTS, sebuah model teks-ke-ucap dengan bobot terbuka yang terdiri dari tiga komponen, memungkinkan pemrosesan efisien di perangkat. Model ini mendukung sembilan bahasa dan kloning suara, mengungguli ElevenLabs dalam pengujian internal, sekaligus meningkatkan fleksibilitas dan mengatasi kekhawatiran privasi.

SnapshotBot

2026-03-28 23:25:03

Pembuatan abstrak sedang berlangsung

Headline

Mistral Merilis Voxtral TTS, Model Suara Berat Terbuka yang Dibangun untuk Penggunaan di Perangkat

Summary

Mistral merilis Voxtral TTS, model teks-ke-suara dengan 3 miliar parameter dan berat terbuka. Model ini dibagi menjadi tiga bagian: model bahasa 3,4B yang memproses teks, model 390M yang menghasilkan fitur suara, dan model 300M yang memproduksi audio akhir. Setelah kuantisasi, model ini berjalan di laptop dengan latensi 90ms, kecepatan 6x waktu nyata, dan RAM 3GB.

Model ini menangani sembilan bahasa dan dapat mengkloning suara hanya dari 5 detik audio—termasuk mengkloning suara dalam satu bahasa dan membuatnya berbicara dalam bahasa lain. Dalam tes internal Mistral, orang lebih memilih Voxtral dibandingkan ElevenLabs 62,8% dari waktu untuk suara default dan 69,9% untuk suara kustom. Rilis berat terbuka memungkinkan perusahaan menjalankan TTS di perangkat keras mereka sendiri, menghindari biaya dan kekhawatiran privasi dari mengirim audio melalui API eksternal.

Analysis

Desain modular mencerminkan pergeseran yang lebih luas menuju arsitektur AI yang dioptimalkan untuk perangkat keras konsumen daripada GPU pusat data. Dengan membagi pemahaman teks, generasi suara, dan output audio menjadi komponen terpisah, Mistral membuat sistem ini lebih fleksibel—perusahaan dapat berpotensi menukar atau menyetel bagian individu.

Ini memposisikan Mistral melawan ElevenLabs di pasar di mana sebagian besar TTS berkualitas tinggi memerlukan panggilan API ke server eksternal. Untuk aplikasi seperti asisten suara atau sistem layanan pelanggan, pemrosesan di perangkat menghilangkan latensi perjalanan pulang dan menjaga data audio tetap lokal. Itu menjadi lebih penting seiring dengan semakin ketatnya regulasi di sekitar AI dan privasi data.

Pengkloningan suara lintas bahasa patut diperhatikan. Jika berhasil seperti yang diiklankan, hal itu dapat membuat produksi konten multibahasa jauh lebih murah. Namun, angka preferensi Mistral berasal dari pengujian internal—ukuran independen akan menunjukkan apakah kualitasnya tetap terjaga dibandingkan ElevenLabs dan pesaing lainnya dalam penggunaan dunia nyata.

Impact Assessment

Signifikansi: Tinggi
Kategori: Rilis Model, Sumber Terbuka, Alat Pengembang

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka