Xiaomi AI Laboratorium merilis open source OmniVoice adalah TTS kloning suara tanpa contoh dalam 646 bahasa. Hanya dengan satu transformer dua arah, memetakan teks ke token akustik diskret, tanpa perlu pipeline dua tahap. Inti dari sistem ini adalah masking acak seluruh kode kamus dan inisialisasi parameter pra-pelatihan dengan model besar, inferensi 40 kali lebih cepat secara real-time, cukup dijalankan dengan PyTorch. Pelatihan berasal dari 50 dataset open source, selama 580.000 jam, bahasa sumber daya rendah menggunakan oversampling. Pengujian pada 24 bahasa menunjukkan keunggulan dibandingkan beberapa sistem komersial, dan mendekati rekaman asli dalam 102 bahasa; juga dapat menyesuaikan suara berdasarkan deskripsi teks, otomatis mengurangi noise, simbol emosi, dan koreksi nama khusus.

BlockBeatNews

2026-05-07 10:35:45

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim Kaldi generasi baru dari Laboratorium AI Xiaomi merilis OmniVoice, sebuah model TTS (teks ke suara) kloning suara nol sampel yang mendukung 646 bahasa. Dengan beberapa detik audio referensi, dapat mengkloning suara, bahkan lintas bahasa: berikan rekaman bahasa Mandarin, model dapat menggunakan suara yang sama untuk berbicara dalam bahasa Jepang, Korea, atau bahasa lain. Kode, bobot, dan data pelatihan semuanya bersifat open source, dengan lisensi Apache-2.0.

Secara arsitektur, OmniVoice mengambil pendekatan minimalis. Seluruh model hanya memiliki satu Transformer dua arah, langsung memetakan dari teks ke token akustik berbasis kode (pengkodean diskret suara), tanpa perlu pipeline dua tahap yang memerlukan token semantik terlebih dahulu kemudian token akustik. Dua desain kunci mendukung struktur sederhana ini: strategi masking acak seluruh kode untuk meningkatkan efisiensi pelatihan, dan inisialisasi dengan parameter pra-pelatihan dari model bahasa besar untuk meningkatkan akurasi pengucapan. Kecepatan inferensi 40 kali lebih cepat dari waktu nyata, langsung dijalankan dengan PyTorch tanpa optimasi tambahan.

Data pelatihan seluruhnya berasal dari 50 dataset suara open source, setelah penyaringan noise dan kualitas, total 580.000 jam. Bahasa sumber daya rendah menggunakan sampling dinamis untuk memastikan efektivitas pelatihan. Dalam pengujian 24 bahasa, suara OmniVoice memiliki tingkat kemiripan dan kefasihan yang melebihi beberapa sistem komersial. Dalam pengujian 102 bahasa, kefasihan mendekati bahkan melebihi rekaman asli. Bahasa kecil yang data pelatihannya kurang dari 10 jam juga dapat disintesis.

Selain kloning suara, model juga mendukung penyesuaian suara berdasarkan deskripsi teks (misalnya “pria, paruh baya, nada sangat rendah” atau “wanita, muda, dialek Sichuan”), pengurangan noise otomatis dengan audio referensi, penyisipan ekspresi seperti tawa dan nafas, serta koreksi pengucapan untuk karakter homonim dan nama properti dalam bahasa Inggris dan Mandarin.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
601.44K Popularitas
#
BTCPullback
106.3M Popularitas
#
IsraelStrikesIranBTCPlunges
44K Popularitas
#
CLARITYActStalled
3.29M Popularitas
#
CryptoStocksRally
1.52M Popularitas

Sematkan

peta situs

Xiaomi membuka sumber OmniVoice: sebuah model yang mencakup kloning suara dalam 646 bahasa, dilatih dengan data sumber terbuka untuk mengalahkan sistem komersial

Topik Trending

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Sematkan