Xiaomi membuka sumber OmniVoice: sebuah model yang mencakup kloning suara dalam 646 bahasa, dilatih dengan data sumber terbuka untuk mengalahkan sistem komersial

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim Kaldi generasi baru dari Laboratorium AI Xiaomi merilis OmniVoice, sebuah model TTS (teks ke suara) kloning suara nol sampel yang mendukung 646 bahasa. Dengan beberapa detik audio referensi, dapat mengkloning suara, bahkan lintas bahasa: berikan rekaman bahasa Mandarin, model dapat menggunakan suara yang sama untuk berbicara dalam bahasa Jepang, Korea, atau bahasa lain. Kode, bobot, dan data pelatihan semuanya bersifat open source, dengan lisensi Apache-2.0.

Secara arsitektur, OmniVoice mengambil pendekatan minimalis. Seluruh model hanya memiliki satu Transformer dua arah, langsung memetakan dari teks ke token akustik berbasis kode (pengkodean diskret suara), tanpa perlu pipeline dua tahap yang memerlukan token semantik terlebih dahulu kemudian token akustik. Dua desain kunci mendukung struktur sederhana ini: strategi masking acak seluruh kode untuk meningkatkan efisiensi pelatihan, dan inisialisasi dengan parameter pra-pelatihan dari model bahasa besar untuk meningkatkan akurasi pengucapan. Kecepatan inferensi 40 kali lebih cepat dari waktu nyata, langsung dijalankan dengan PyTorch tanpa optimasi tambahan.

Data pelatihan seluruhnya berasal dari 50 dataset suara open source, setelah penyaringan noise dan kualitas, total 580.000 jam. Bahasa sumber daya rendah menggunakan sampling dinamis untuk memastikan efektivitas pelatihan. Dalam pengujian 24 bahasa, suara OmniVoice memiliki tingkat kemiripan dan kefasihan yang melebihi beberapa sistem komersial. Dalam pengujian 102 bahasa, kefasihan mendekati bahkan melebihi rekaman asli. Bahasa kecil yang data pelatihannya kurang dari 10 jam juga dapat disintesis.

Selain kloning suara, model juga mendukung penyesuaian suara berdasarkan deskripsi teks (misalnya “pria, paruh baya, nada sangat rendah” atau “wanita, muda, dialek Sichuan”), pengurangan noise otomatis dengan audio referensi, penyisipan ekspresi seperti tawa dan nafas, serta koreksi pengucapan untuk karakter homonim dan nama properti dalam bahasa Inggris dan Mandarin.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan