### HeadlineMistral发布Voxtral TTS,这是一个为设备端使用构建的开放权重语音模型### SummaryMistral发布了Voxtral TTS,这是一个拥有30亿参数的开放权重文本转语音模型。该模型分为三个部分:一个处理文本的34亿语言模型,一个生成语音特征的390M模型,以及一个生成最终音频的300M模型。经过量化后,它在笔记本电脑上运行,延迟为90毫秒,实时速度为6倍,内存需求为3GB。该模型支持九种语言,并且可以通过仅5秒的音频克隆声音——包括在一种语言中克隆声音并让其用另一种语言说话。在Mistral的内部测试中,人们在默认声音方面更倾向于Voxtral,比例为62.8%,在自定义声音方面为69.9%。开放权重的发布使公司能够在自己的硬件上运行TTS,避免了通过外部API发送音频所带来的成本和隐私问题。### Analysis这种模块化设计反映了向优化为消费硬件而非数据中心GPU的AI架构的更广泛转变。通过将文本理解、语音生成和音频输出分成独立组件,Mistral使系统更加灵活——公司可以潜在地更换或微调单个部分。这使Mistral在一个大多数高质量TTS需要调用外部服务器API的市场中与ElevenLabs竞争。对于语音助手或客户服务系统等应用,设备端处理消除了往返延迟,并保持音频数据本地存储。随着关于AI和数据隐私的法规日益严格,这一点变得更加重要。跨语言声音克隆值得关注。如果它如广告所示那样有效,可能会使多语言内容制作变得便宜得多。但Mistral的偏好数据来自内部测试——独立基准测试将显示其质量是否能在现实使用中与ElevenLabs及其他竞争对手相抗衡。### Impact Assessment- **Significance**: 高- **Categories**: 模型发布, 开源, 开发者工具
Mistral 发布 Voxtral TTS,一款为设备端使用而构建的开源语音模型
Headline
Mistral发布Voxtral TTS,这是一个为设备端使用构建的开放权重语音模型
Summary
Mistral发布了Voxtral TTS,这是一个拥有30亿参数的开放权重文本转语音模型。该模型分为三个部分:一个处理文本的34亿语言模型,一个生成语音特征的390M模型,以及一个生成最终音频的300M模型。经过量化后,它在笔记本电脑上运行,延迟为90毫秒,实时速度为6倍,内存需求为3GB。
该模型支持九种语言,并且可以通过仅5秒的音频克隆声音——包括在一种语言中克隆声音并让其用另一种语言说话。在Mistral的内部测试中,人们在默认声音方面更倾向于Voxtral,比例为62.8%,在自定义声音方面为69.9%。开放权重的发布使公司能够在自己的硬件上运行TTS,避免了通过外部API发送音频所带来的成本和隐私问题。
Analysis
这种模块化设计反映了向优化为消费硬件而非数据中心GPU的AI架构的更广泛转变。通过将文本理解、语音生成和音频输出分成独立组件,Mistral使系统更加灵活——公司可以潜在地更换或微调单个部分。
这使Mistral在一个大多数高质量TTS需要调用外部服务器API的市场中与ElevenLabs竞争。对于语音助手或客户服务系统等应用,设备端处理消除了往返延迟,并保持音频数据本地存储。随着关于AI和数据隐私的法规日益严格,这一点变得更加重要。
跨语言声音克隆值得关注。如果它如广告所示那样有效,可能会使多语言内容制作变得便宜得多。但Mistral的偏好数据来自内部测试——独立基准测试将显示其质量是否能在现实使用中与ElevenLabs及其他竞争对手相抗衡。
Impact Assessment