Xiaomi відкриває OmniVoice: модель, яка охоплює 646 мов для голосового клонування, повністю відкриті дані для тренування та перемога в комерційних системах

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, нове покоління команди Kaldi лабораторії штучного інтелекту Xiaomi відкриває OmniVoice — модель тексту у мову (TTS), яка підтримує 646 мов без зразка. За кілька секунд зразка аудіо можна створити клона голосу, навіть між мовами: надайте запис китайською, і модель зможе говорити японською, корейською або іншими мовами тим самим голосом. Весь код, ваги та тренувальні дані відкриті, ліцензія Apache-2.0.

У архітектурі OmniVoice дотримується мінімалістичного підходу. Вся модель складається з одного двонапрямного трансформера, який безпосередньо з тексту перетворює у багатокодові акустичні токени (дискретне кодування звуку), без двоступеневого конвеєра, що спочатку перетворює семантичні токени, а потім акустичні. Два ключові рішення підтримують цю просту структуру: стратегія випадкового маскування всіх кодових токенів для підвищення ефективності тренування, ініціалізація з попередньо навчених параметрів великих мовних моделей для покращення точності вимови. Швидкість inference у 40 разів швидша за реальний час, PyTorch працює без додаткової оптимізації.

Всі тренувальні дані зібрані з 50 відкритих мовних датасетів, після шумозаглушення та відбору якості їх загальна тривалість становить 580 000 годин. Для малоресурсних мов застосовується динамічне підвищення частоти зразків для забезпечення якості тренування. У тестах на 24 мовах, OmniVoice перевищує кілька комерційних систем за схожістю голосу та зрозумілістю. У тестах на 102 мовах зрозумілість наближається або перевищує реальні записи. Малі мовні датасети тривалістю менше 10 годин також здатні генерувати якісний звук.

Крім клонування голосу, модель підтримує налаштування тембру за описом (наприклад, «чоловік, середнього віку, дуже низький тон» або «жінка, молодь, сичуаньський діалект»), автоматичне зниження шуму з допомогою референсного аудіо, вставку емоційних знаків, таких як сміх або зітхання, а також корекцію вимови складних китайських імен та імен власних назв.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити