動態監測 Beating によると、 Xiaomi AI ラボの新世代 Kaldi チームは OmniVoice をオープンソース化しました。 これは646種類の言語をサポートするゼロショット音声クローン TTS(テキスト・トゥ・スピーチ)モデルです。 数秒の参考音声だけで声色をクローンでき、言語をまたいでも可能です: 中国語の録音を与えると、モデルは同じ声で日本語、韓国語、その他の言語を話すことができます。 コード、重み、トレーニングデータはすべてオープンソースで、Apache-2.0ライセンスです。 アーキテクチャは OmniVoice が極簡主義を採用しています。 モデルはたった一つの双方向Transformerだけで構成されており、 テキストから直接多コードブックの声学トークン(音声の離散符号化)へマッピングします。 セマンティックトークンを先に変換してから声学トークンにする二段階のパイプラインは不要です。 このシンプルな構造を支える二つの重要な設計は次の通りです: 全コードブックのランダムマスキング戦略により訓練効率を向上させ、 大規模言語モデルの事前訓練パラメータを初期化に用いて発音精度を高めています。 推論速度はリアルタイムの40倍で、PyTorchだけで動作し、追加の最適化は不要です。 訓練データはすべて50のオープンソース音声データセットから取得され、 ノイズ除去と品質選別後に合計58万時間分となっています。 リソースの少ない言語には動的アップサンプリングを用いて訓練効果を保証します。 24言語のテストでは、OmniVoiceの音声類似度と理解度は複数の商用システムを上回っています。 102言語のテストでは、理解度は実録音に近く、場合によってはそれを超えることもあります。 訓練データが10時間未満の小規模言語でも合成可能です。 音声クローンに加え、モデルは文字による音色のカスタマイズ(例:「男性、中年、極低音」や「女性、若年、四川語」)、 ノイズを含む参考音声の自動ノイズ除去、笑い声やため息などの感情記号の挿入、 中英語の多音字や固有名詞の発音訂正もサポートします。
Xiaomiがオープンソース化したOmniVoice:646言語をカバーする音声クローンモデル、純粋なオープンソースデータで商用システムに勝利
動態監測 Beating によると、 Xiaomi AI ラボの新世代 Kaldi チームは OmniVoice をオープンソース化しました。
これは646種類の言語をサポートするゼロショット音声クローン TTS(テキスト・トゥ・スピーチ)モデルです。
数秒の参考音声だけで声色をクローンでき、言語をまたいでも可能です:
中国語の録音を与えると、モデルは同じ声で日本語、韓国語、その他の言語を話すことができます。
コード、重み、トレーニングデータはすべてオープンソースで、Apache-2.0ライセンスです。
アーキテクチャは OmniVoice が極簡主義を採用しています。
モデルはたった一つの双方向Transformerだけで構成されており、
テキストから直接多コードブックの声学トークン(音声の離散符号化)へマッピングします。
セマンティックトークンを先に変換してから声学トークンにする二段階のパイプラインは不要です。
このシンプルな構造を支える二つの重要な設計は次の通りです:
全コードブックのランダムマスキング戦略により訓練効率を向上させ、
大規模言語モデルの事前訓練パラメータを初期化に用いて発音精度を高めています。
推論速度はリアルタイムの40倍で、PyTorchだけで動作し、追加の最適化は不要です。
訓練データはすべて50のオープンソース音声データセットから取得され、
ノイズ除去と品質選別後に合計58万時間分となっています。
リソースの少ない言語には動的アップサンプリングを用いて訓練効果を保証します。
24言語のテストでは、OmniVoiceの音声類似度と理解度は複数の商用システムを上回っています。
102言語のテストでは、理解度は実録音に近く、場合によってはそれを超えることもあります。
訓練データが10時間未満の小規模言語でも合成可能です。
音声クローンに加え、モデルは文字による音色のカスタマイズ(例:「男性、中年、極低音」や「女性、若年、四川語」)、
ノイズを含む参考音声の自動ノイズ除去、笑い声やため息などの感情記号の挿入、
中英語の多音字や固有名詞の発音訂正もサポートします。