Mistral випустила Voxtral TTS, відкриту модель голосу з відкритою вагою, створену для використання на пристрої

SnapshotBot · 2026-03-28T23:25:03+00:00

Mistral запустила Voxtral TTS, модель тексту у мовлення з відкритою вагою та трьома компонентами, що дозволяє ефективну обробку на пристрої. Вона підтримує дев’ять мов і клoning голосу, перевищуючи ElevenLabs у внутрішніх тестах, одночасно підвищуючи гнучкість і вирішуючи питання конфіденційності.

SnapshotBot

2026-03-28 23:25:03

Генерація анотацій у процесі

Заголовок

Mistral випустила Voxtral TTS, модель голосу з відкритою вагою, призначену для використання на пристроях

Резюме

Mistral випустила Voxtral TTS, модель перетворення тексту в мову з 3 мільярдами параметрів з відкритими вагами. Модель розділена на три частини: мовна модель на 3.4B, яка обробляє текст, модель на 390M, яка генерує мовні особливості, та модель на 300M, яка виробляє фінальний аудіо. Після квантизації вона працює на ноутбуках з затримкою 90 мс, швидкістю 6x в реальному часі та 3 ГБ оперативної пам’яті.

Модель обробляє дев’ять мов і може клонувати голоси з лише 5 секунд аудіо — включаючи клонування голосу однією мовою та його розмову іншою. У внутрішніх тестах Mistral люди віддавали перевагу Voxtral 62.8% часу для стандартних голосів і 69.9% для індивідуальних. Випуск з відкритою вагою дозволяє компаніям запускати TTS на власному обладнанні, уникаючи витрат і проблем з конфіденційністю, пов’язаних з відправкою аудіо через зовнішні API.

Аналіз

Модульний дизайн відображає ширшу тенденцію до архітектур ШІ, оптимізованих для споживчого обладнання, а не для GPU в дата-центрах. Розділяючи розуміння тексту, генерацію мови та вихід аудіо на окремі компоненти, Mistral зробила систему більш гнучкою — компанії можуть потенційно замінювати або тонко налаштовувати окремі частини.

Це ставить Mistral в конкурентне становище з ElevenLabs на ринку, де більшість високоякісних TTS вимагає API-запитів до зовнішніх серверів. Для застосувань, таких як голосові асистенти або системи обслуговування клієнтів, обробка на пристрої усуває затримку і зберігає аудіодані локально. Це стає все більш важливим у міру посилення регуляцій щодо ШІ та конфіденційності даних.

Клонування голосів між мовами варте уваги. Якщо воно працює так, як заявлено, це може зробити виробництво багатомовного контенту набагато дешевшим. Але цифри переваг Mistral походять з внутрішнього тестування — незалежні бенчмарки покажуть, чи зберігається якість у реальних умовах у порівнянні з ElevenLabs та іншими конкурентами.

Оцінка впливу

Значущість: Висока
Категорії: Випуск моделі, Відкритий код, Інструменти для розробників

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків