小米开源OmniVoice:一个模型覆盖646种语言的语音克隆

robot
摘要生成中
币界网消息,小米AI实验室新一代Kaldi团队开源OmniVoice,一个支持646种语言的零样本语音克隆TTS(文本转语音)模型。该模型能够用几秒钟的参考音频克隆音色,支持跨语言转换。代码、权重和训练数据全部开源,采用Apache-2.0许可。OmniVoice架构走极简路线,模型仅有一个双向Transformer,直接从文本映射到多码本声学token,无需两阶段流水线。训练数据来自50个开源语音数据集,经过降噪和质量筛选后共58万小时。该模型在24种语言的测试中,语音相似度和可懂度均超过多款商用系统,在102种语言的测试中,可懂度接近甚至优于真实录音。除了语音克隆,模型还支持文字描述定制音色、带噪参考音频自动降噪等功能。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论