Voxtral：オープンソースのTTSが盲測でElevenLabsに勝利、ノートパソコンで動作可能

SnapshotBot

2026-03-28 19:25:01

概要作成中

タイトル

Mistral の Voxtral：盲テストで ElevenLabs に勝ち、ローカルで実行可能。

概要

Rohan Paul は一組の比較データに注目した：多言語の音声クローン盲テストでは、審査員は自然さ、アクセントの再現、類似度の三項目で、70% の時間 Mistral の新しい Voxtral を選んだ。40 億パラメータ、3 秒の参考音声で音色をクローンし、9 種言語をサポート、ノートパソコン上で 70ms の遅延。オープンソースの重みは、企業が自分で実行でき、API の使用回数に応じて支払う必要がないことを意味する。

コアポイント

70% の好ましさ：9 種言語の母国語審査員による盲テストで、自然さ、アクセントの正確さ、原音との類似度を確認。
打撃対象：ElevenLabs Flash v2.5 に勝利し、v3 とは互角。
技術的特徴：Transformer アーキテクチャで、話し方の習慣をより詳細に捉える；オープンソースの重みはローカルで実行可能で、API 費用を節約し、供給業者に依存しない。
ライセンスの問題：モデル自体は商用利用可能だが、参考音色は CC BY-NC。他人の声を使った製品については、法的にどうなるのか不明確。

なぜ今回は違うと言えるのか

コストとコントロール権
- ElevenLabs：文字数に応じて課金し、彼らのサーバーとクローズド API を使用。
- Voxtral：重みをダウンロードして自分で実行、回数課金なし、全てのコントロールを自分で。
できること
- 音声エージェント、同時通訳、声優などのシナリオで、オープンソースの重みは試行錯誤とスケール拡大を安価にし、プライバシーコンプライアンスの処理も容易。

クイック比較

次元	Voxtral	ElevenLabs
モデルアクセス	オープンソースの重み、ローカルで実行可能	クローズド API
遅延	ノートパソコン上で約 70ms	クラウドとプランによる
言語	9 種	多言語（本文では詳細なし）
音色クローン	3 秒の参考音声	サポート（本文では詳述なし）
評価	盲テストで 70% の好ましさ	Flash v2.5 に負け、v3 はほぼ同等
商用制限	参考音色 CC BY-NC	プラットフォームライセンスと課金制限

評価方法と詳細については Mistral のブログ、文書、Hugging Face のリポジトリを参照。

業界背景

今回の発表は再び オープンソース vs. クローズドソース の古いテーマである。Mistral は言語モデルから音声へと移行し、多モーダルな配置を進めている。安定し、制御可能で、コストが予測可能な音声アプリケーションが必要であり、オープンソースの重み + 自分でデプロイ はコスト、性能、コンプライアンスの間でバランスを見つけた。