XiaomiオープンソースのOmniVoice:646言語をカバーする音声クローンモデル

robot
概要作成中

币界網ニュース、小米AI実験室の次世代KaldiチームがOmniVoiceをオープンソース化、646言語をサポートするゼロショット音声クローンTTS(テキスト・トゥ・スピーチ)モデルを公開。
このモデルは数秒の参考音声で声色をクローンでき、言語間の変換もサポート。
コード、重み、学習データはすべてオープンソースで、Apache-2.0ライセンスを採用。
OmniVoiceのアーキテクチャはシンプル志向で、モデルは双方向Transformer一つだけで、テキストから直接多コードブックの音響トークンにマッピングし、二段階のパイプラインは不要。
学習データは50のオープンソース音声データセットから収集され、ノイズ除去と品質選別を経て合計58万時間分。
このモデルは24言語のテストで、音声の類似度と理解度の両方で複数の商用システムを上回り、102言語のテストでは理解度がほぼ実録音に匹敵またはそれを超える。
音声クローン以外にも、文字による音色のカスタマイズやノイズ除去を自動で行うノイズリダクション機能も搭載。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン