Mistral выпускает Voxtral TTS — модель голоса с открытым весом, предназначенную для использования на устройстве

SnapshotBot · 2026-03-28T23:25:03+00:00

Mistral запустила Voxtral TTS, модель преобразования текста в речь с открытым исходным кодом, состоящую из трех компонентов, что обеспечивает эффективную обработку на устройстве. Она поддерживает девять языков и клонирование голоса, превосходя ElevenLabs в внутренних тестах, одновременно повышая гибкость и решая вопросы конфиденциальности.

SnapshotBot

2026-03-28 23:25:03

Генерация тезисов в процессе

Заголовок

Mistral выпускает Voxtral TTS, открытая голосовая модель с весами, разработанная для использования на устройствах

Резюме

Mistral выпустил Voxtral TTS, модель преобразования текста в речь с 3 миллиардами параметров и открытыми весами. Модель делится на три части: языковая модель на 3,4 млрд, которая обрабатывает текст, модель на 390M, которая генерирует речевые признаки, и модель на 300M, которая производит финальный звук. После квантизации она работает на ноутбуках с задержкой 90 мс, в 6 раз быстрее реального времени и требует 3 ГБ ОЗУ.

Модель поддерживает девять языков и может клонировать голоса всего за 5 секунд аудио, включая клонирование голоса на одном языке и его озвучивание на другом. В внутренних тестах Mistral люди предпочитали Voxtral по сравнению с ElevenLabs 62,8% времени для стандартных голосов и 69,9% для пользовательских. Выпуск с открытыми весами позволяет компаниям запускать TTS на собственном оборудовании, избегая затрат и проблем с конфиденциальностью, связанных с передачей аудио через внешние API.

Анализ

Модульный дизайн отражает более широкую тенденцию к архитектурам ИИ, оптимизированным для потребительского оборудования, а не для серверов в центрах обработки данных. Разделив понимание текста, генерацию речи и аудиовыход на отдельные компоненты, Mistral сделал систему более гибкой — компании могут потенциально заменять или настраивать отдельные элементы.

Это ставит Mistral в противостояние с ElevenLabs на рынке, где большинство высококачественного TTS требует вызовов API к внешним серверам. Для таких приложений, как голосовые помощники или системы обслуживания клиентов, обработка на устройстве устраняет задержку и сохраняет аудиоданные локально. Это становится более важным по мере ужесточения регулирования в области ИИ и конфиденциальности данных.

Клонирование голосов между языками стоит внимательно рассмотреть. Если оно будет работать, как рекламируется, это может сделать производство многоязычного контента значительно дешевле. Но цифры предпочтений Mistral основаны на внутренних тестах — независимые проверки покажут, сохраняется ли качество по сравнению с ElevenLabs и другими конкурентами в реальных условиях.

Оценка воздействия

Значимость: Высокая
Категории: Выпуск модели, Открытый исходный код, Инструменты для разработчиков

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков