Мі Xiaomi AI лабораторія відкрила OmniVoice — відкритий проект, який є системою TTS з нульовим зразком для 646 мов. Лише один двонаправлений трансформер перетворює текст у дискретні акустичні токени, без необхідності двоступеневого конвеєра. Основою є випадкове маскування всього кодового словника та ініціалізація параметрів за допомогою попереднього навчання великою моделлю, що забезпечує реальну швидкість у 40 разів швидше за реальний час, достатньо для запуску на PyTorch. Навчання проводилося на 50 відкритих наборах даних загальним обсягом 580 000 годин, з використанням апсейлінгу для мов з низьким ресурсом. Тестування на 24 мовах показало перевагу над кількома комерційними системами, а на 102 мовах — близькість до реальних записів; також можливо налаштовувати тембр за допомогою текстового опису, автоматичне зниження шуму, емоційні символи та корекцію власних імен.

BlockBeatNews

2026-05-07 10:35:45

Генерація анотацій у процесі

Згідно з моніторингом Beating, нове покоління команди Kaldi лабораторії штучного інтелекту Xiaomi відкриває OmniVoice — модель тексту у мову (TTS), яка підтримує 646 мов без зразка. За кілька секунд зразка аудіо можна створити клона голосу, навіть між мовами: надайте запис китайською, і модель зможе говорити японською, корейською або іншими мовами тим самим голосом. Весь код, ваги та тренувальні дані відкриті, ліцензія Apache-2.0.

У архітектурі OmniVoice дотримується мінімалістичного підходу. Вся модель складається з одного двонапрямного трансформера, який безпосередньо з тексту перетворює у багатокодові акустичні токени (дискретне кодування звуку), без двоступеневого конвеєра, що спочатку перетворює семантичні токени, а потім акустичні. Два ключові рішення підтримують цю просту структуру: стратегія випадкового маскування всіх кодових токенів для підвищення ефективності тренування, ініціалізація з попередньо навчених параметрів великих мовних моделей для покращення точності вимови. Швидкість inference у 40 разів швидша за реальний час, PyTorch працює без додаткової оптимізації.

Всі тренувальні дані зібрані з 50 відкритих мовних датасетів, після шумозаглушення та відбору якості їх загальна тривалість становить 580 000 годин. Для малоресурсних мов застосовується динамічне підвищення частоти зразків для забезпечення якості тренування. У тестах на 24 мовах, OmniVoice перевищує кілька комерційних систем за схожістю голосу та зрозумілістю. У тестах на 102 мовах зрозумілість наближається або перевищує реальні записи. Малі мовні датасети тривалістю менше 10 годин також здатні генерувати якісний звук.

Крім клонування голосу, модель підтримує налаштування тембру за описом (наприклад, «чоловік, середнього віку, дуже низький тон» або «жінка, молодь, сичуаньський діалект»), автоматичне зниження шуму з допомогою референсного аудіо, вставку емоційних знаків, таких як сміх або зітхання, а також корекцію вимови складних китайських імен та імен власних назв.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
612.42K Популярність
#
BTCPullback
106.33M Популярність
#
IsraelStrikesIranBTCPlunges
44K Популярність
#
CLARITYActStalled
3.29M Популярність
#
CryptoStocksRally
1.52M Популярність

Закріпити

карта сайту

Xiaomi відкриває OmniVoice: модель, яка охоплює 646 мов для голосового клонування, повністю відкриті дані для тренування та перемога в комерційних системах

Популярні теми

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Закріпити