币界網ニュース、小米AI実験室の次世代KaldiチームがOmniVoiceをオープンソース化、646言語をサポートするゼロショット音声クローンTTS(テキスト・トゥ・スピーチ)モデルを公開。 このモデルは数秒の参考音声で声色をクローンでき、言語間の変換もサポート。 コード、重み、学習データはすべてオープンソースで、Apache-2.0ライセンスを採用。 OmniVoiceのアーキテクチャはシンプル志向で、モデルは双方向Transformer一つだけで、テキストから直接多コードブックの音響トークンにマッピングし、二段階のパイプラインは不要。 学習データは50のオープンソース音声データセットから収集され、ノイズ除去と品質選別を経て合計58万時間分。 このモデルは24言語のテストで、音声の類似度と理解度の両方で複数の商用システムを上回り、102言語のテストでは理解度がほぼ実録音に匹敵またはそれを超える。 音声クローン以外にも、文字による音色のカスタマイズやノイズ除去を自動で行うノイズリダクション機能も搭載。
XiaomiオープンソースのOmniVoice:646言語をカバーする音声クローンモデル
币界網ニュース、小米AI実験室の次世代KaldiチームがOmniVoiceをオープンソース化、646言語をサポートするゼロショット音声クローンTTS(テキスト・トゥ・スピーチ)モデルを公開。
このモデルは数秒の参考音声で声色をクローンでき、言語間の変換もサポート。
コード、重み、学習データはすべてオープンソースで、Apache-2.0ライセンスを採用。
OmniVoiceのアーキテクチャはシンプル志向で、モデルは双方向Transformer一つだけで、テキストから直接多コードブックの音響トークンにマッピングし、二段階のパイプラインは不要。
学習データは50のオープンソース音声データセットから収集され、ノイズ除去と品質選別を経て合計58万時間分。
このモデルは24言語のテストで、音声の類似度と理解度の両方で複数の商用システムを上回り、102言語のテストでは理解度がほぼ実録音に匹敵またはそれを超える。
音声クローン以外にも、文字による音色のカスタマイズやノイズ除去を自動で行うノイズリダクション機能も搭載。