Voxtral:オープンソースのTTSが盲測でElevenLabsに勝利、ノートパソコンで動作可能

robot
概要作成中

タイトル

Mistral の Voxtral:盲テストで ElevenLabs に勝ち、ローカルで実行可能。

概要

Rohan Paul は一組の比較データに注目した:多言語の音声クローン盲テストでは、審査員は自然さ、アクセントの再現、類似度の三項目で、70% の時間 Mistral の新しい Voxtral を選んだ。40 億パラメータ、3 秒の参考音声で音色をクローンし、9 種言語をサポート、ノートパソコン上で 70ms の遅延。オープンソースの重みは、企業が自分で実行でき、API の使用回数に応じて支払う必要がないことを意味する。

コアポイント

  • 70% の好ましさ:9 種言語の母国語審査員による盲テストで、自然さ、アクセントの正確さ、原音との類似度を確認。
  • 打撃対象:ElevenLabs Flash v2.5 に勝利し、v3 とは互角。
  • 技術的特徴:Transformer アーキテクチャで、話し方の習慣をより詳細に捉える;オープンソースの重みはローカルで実行可能で、API 費用を節約し、供給業者に依存しない。
  • ライセンスの問題:モデル自体は商用利用可能だが、参考音色は CC BY-NC。他人の声を使った製品については、法的にどうなるのか不明確。

なぜ今回は違うと言えるのか

  • コストとコントロール権
    • ElevenLabs:文字数に応じて課金し、彼らのサーバーとクローズド API を使用。
    • Voxtral:重みをダウンロードして自分で実行、回数課金なし全てのコントロールを自分で
  • できること
    • 音声エージェント、同時通訳、声優などのシナリオで、オープンソースの重みは試行錯誤とスケール拡大を安価にし、プライバシーコンプライアンスの処理も容易。

クイック比較

次元 Voxtral ElevenLabs
モデルアクセス オープンソースの重み、ローカルで実行可能 クローズド API
遅延 ノートパソコン上で約 70ms クラウドとプランによる
言語 9 種 多言語(本文では詳細なし)
音色クローン 3 秒の参考音声 サポート(本文では詳述なし)
評価 盲テストで 70% の好ましさ Flash v2.5 に負け、v3 はほぼ同等
商用制限 参考音色 CC BY-NC プラットフォームライセンスと課金制限

評価方法と詳細については Mistral のブログ、文書、Hugging Face のリポジトリを参照。

業界背景

今回の発表は再び オープンソース vs. クローズドソース の古いテーマである。Mistral は言語モデルから音声へと移行し、多モーダルな配置を進めている。安定し、制御可能で、コストが予測可能な音声アプリケーションが必要であり、オープンソースの重み + 自分でデプロイ はコスト、性能、コンプライアンスの間でバランスを見つけた。

リスク

  • ライセンスの不確実性:参考音色は CC BY-NC であり、商業製品として他人の声を直接クローンすることについて、著作権と肖像権がどうなるかは不明。
  • 比較範囲の制限:ElevenLabs とのみ比較し、Coqui や Bark など他のオープンソース TTS は測定していない。

影響評価

  • 重要性:高い
  • カテゴリー:モデルリリース、オープンソース、市場影響

判断: 音声リンクの制御が可能で、コストが予測できるチームにとって、今が参入するには遅くない。開発者と企業向けのビルダーの優位性は明らかであり;単なる取引を行う者にはあまり関係がない。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$0.1保有者数:2
    0.00%
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$2.25K保有者数:1
    0.00%
  • 時価総額:$2.26K保有者数:1
    0.00%
  • 時価総額:$2.26K保有者数:1
    0.00%
  • ピン