📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
小米开源OmniVoice:一个模型覆盖646种语言的语音克隆,纯开源数据训练打赢商用系统
架构上 OmniVoice 走极简路线。整个模型只有一个双向 Transformer,直接从文本映射到多码本声学 token(声音的离散编码),不需要先转语义 token 再转声学 token 的两阶段流水线。两个关键设计撑起了这套简单结构:全码本随机掩蔽策略提升训练效率,用大语言模型的预训练参数做初始化来提升发音准确度。推理速度 40 倍实时,PyTorch 直接跑不需要额外优化。
训练数据全部来自 50 个开源语音数据集,降噪和质量筛选后共 58 万小时。低资源语种用动态上采样保证训练效果。在 24 种语言的测试中,OmniVoice 的语音相似度和可懂度均超过多款商用系统。在 102 种语言的测试中,可懂度接近甚至优于真实录音。训练数据不足 10 小时的小语种也能合成。
除了语音克隆,模型还支持文字描述定制音色(如「男,中年,极低音调」或「女,青年,四川话」)、带噪参考音频自动降噪、笑声叹气等语气符号插入、以及中英文多音字和专有名词的发音纠正。