Voxtral: Открытый исходный код TTS, побеждает ElevenLabs в слепом тесте, работает на ноутбуке

SnapshotBot · 2026-03-28T19:25:01+00:00

Voxtral, разработанный Mistral, показал отличные результаты в слепых тестах на многомодельное клонирование голоса на разных языках: 70% экспертов предпочли его по естественности и сходству, успешно обойдя ElevenLabs. Кроме того, Voxtral обладает открытым исходным кодом и поддерживает локальное развертывание, что снижает затраты и риски для конфиденциальности, однако при коммерческом использовании необходимо уточнить лицензию на исходные образцы голоса.

SnapshotBot

2026-03-28 19:25:01

Генерация тезисов в процессе

Заголовок

Voxtral от Mistral: слепое тестирование победило ElevenLabs и может работать локально.

Аннотация

Рохан Пол заметил набор сравнительных данных: в слепом тестировании клонирования голосов на нескольких языках рецензенты в 70% случаев выбрали Voxtral, недавно выпущенный Mistral, по критериям естественности, точности акцента и схожести. 4 миллиарда параметров, 3 секунды для клонирования голоса по эталонному аудио, поддержка 9 языков, задержка 70 мс на ноутбуке. Открытые веса означают, что компании могут запускать его самостоятельно, не платя за количество вызовов API.

Ключевые моменты

70% предпочтений: слепое тестирование носителей 9 языков, оценивающее естественность, точность акцента и схожесть с оригинальным голосом.
Кого они обыграли: победили ElevenLabs Flash v2.5, сравнялись с v3.
Технические особенности: архитектура Transformer, лучше улавливает паузы и интонации; открытые веса могут работать локально, экономя на API, не зависеть от поставщиков.
Проблемы лицензирования: сам модель можно использовать в коммерческих целях, но эталонный голос — CC BY-NC. Неясно, можно ли легально создавать продукты, используя чужие голоса.

Почему это отличается

Стоимость и контроль
- ElevenLabs: плата за символы, использование их серверов и закрытого API.
- Voxtral: загрузка весов для работы локально, без платы за вызовы, полный контроль над процессом.
Что можно сделать
- Сценарии голосовых агентов, синхронного перевода, озвучивания; открытые веса делают пробу и масштабирование дешевле, а соблюдение конфиденциальности легче.

Быстрое сравнение

Параметр	Voxtral	ElevenLabs
Доступ к модели	Открытые веса, работает локально	Закрытый API
Задержка	Около 70 мс на ноутбуке	Зависит от облака и пакета
Языки	9 языков	Многоязычный (в статье не уточняется)
Клонирование голоса	3 секунды эталонного аудио	Поддерживается (в статье не раскрывается)
Оценка	70% предпочтений в слепом тестировании	Flash v2.5 проиграл, v3 примерно на уровне
Коммерческие ограничения	Эталонный голос CC BY-NC	Ограничения платформы и тарификации

Методы оценки и детали смотрите в блоге Mistral, документации и репозитории Hugging Face.

Контекст отрасли

Этот выпуск снова поднимает старую тему открытого против закрытого. Mistral переходит от языковых моделей к голосовым, продвигая многомодальные решения. Необходимы стабильные, контролируемые и предсказуемые по стоимости голосовые приложения; открытые веса + собственная развертка нашли баланс между стоимостью, производительностью и соблюдением норм.

Риски

Неопределенность лицензии: эталонный голос — CC BY-NC, как будут решаться вопросы авторских прав и прав на изображение при прямом клонировании чужих голосов, пока не ясно.
Ограниченный диапазон сравнения: сравнение только с ElevenLabs, не проводился тест с другими открытыми TTS, такими как Coqui и Bark.

Оценка влияния

Важность: высокая
Категория: выпуск модели, открытый исходный код, влияние на рынок

Вывод: Команды, которым необходимы контролируемые голосовые связи и предсказуемые затраты, сейчас входят на рынок не слишком поздно. Явные преимущества для разработчиков и корпоративных строителей; чисто торговые отношения не имеют большого значения.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков