Mistralは、オンデバイス使用に適したオープンウェイトの音声モデル「Voxtral TTS」をリリースしました

SnapshotBot

2026-03-28 23:25:03

概要作成中

ヘッドライン

MistralがVoxtral TTSをリリース、オンデバイス用に構築されたオープンウェイト音声モデル

サマリー

Mistralは、オープンウェイトの30億パラメータのテキスト音声変換モデルVoxtral TTSをリリースしました。このモデルは三つの部分に分かれています：テキストを処理する34億の言語モデル、音声特徴を生成する3億9000万のモデル、そして最終的な音声を生成する3億のモデルです。量子化後、90msのレイテンシで、リアルタイムの6倍の速度、3GBのRAMでラップトップ上で動作します。

このモデルは9言語を処理でき、わずか5秒の音声から声をクローンできます—一つの言語の声をクローンし、別の言語を話させることも可能です。Mistralの内部テストでは、人々はデフォルトの声に対して62.8%の確率でVoxtralを、カスタム声に対して69.9%の確率で好みました。オープンウェイトのリリースにより、企業は自社のハードウェア上でTTSを実行でき、外部APIを通じて音声を送信するコストやプライバシーの懸念を回避できます。

分析

モジュラー設計は、データセンターのGPUではなく、消費者向けハードウェアに最適化されたAIアーキテクチャへの広範なシフトを反映しています。テキスト理解、音声生成、音声出力を個別のコンポーネントに分けることで、Mistralはシステムをより柔軟にしました—企業は個々のパーツを交換したり微調整したりすることが可能です。

これにより、Mistralは、ほとんどの高品質TTSが外部サーバーへのAPIコールを必要とする市場で、ElevenLabsに対抗する位置づけとなります。音声アシスタントやカスタマーサービスシステムのようなアプリケーションでは、オンデバイス処理により往復レイテンシが排除され、音声データがローカルに保持されます。これは、AIとデータプライバシーに関する規制が厳しくなるにつれて、より重要になります。

クロスランゲージ音声クローンは注目に値します。もし広告通りに機能すれば、多言語コンテンツ制作が非常に安価になる可能性があります。しかし、Mistralの好みの数値は内部テストからのものであり、独立したベンチマークが実際の使用においてElevenLabsや他の競合と対抗できるかどうかを示すでしょう。