TTS sumber terbuka akhirnya beralih ke streaming waktu nyata, Higgs Audio v3 kontrol latensnya cukup keren, kloning tanpa sampel + label emosi cukup seru dimainkan

Lihat Asli
CoinNetwork
Boson AI model audio 4B sumber terbuka Higgs Audio v3, mendukung kontrol emosi streaming
Boson AI Rilis sumber terbuka Higgs Audio v3 TTS bobot, berbasis Qwen3-4B, sekitar 4 miliar parameter, dioptimalkan untuk percakapan streaming waktu nyata, mulai melakukan sintesis saat teks belum selesai untuk mengurangi latensi. Mendukung lebih dari 100 bahasa/dialek, tingkat kesalahan kata dan karakter turun ke angka satuan, mendukung kloning suara tanpa sampel dan dapat menyisipkan lebih dari 20 emosi serta label kontrol multi-kategori dalam teks. Bersama LMSYS mengimplementasikan optimisasi end-to-end dalam kerangka SGLang-Omni, kecepatan waktu nyata tunggal H100 adalah 0.147. Bobot telah dirilis di Hugging Face, menggunakan lisensi penelitian non-komersial.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan