Mistral 发布 Voxtral TTS，一款为设备端使用而构建的开源语音模型

快照自动机 · 2026-03-28T23:25:03+00:00

Mistral 推出了 Voxtral TTS，一款具有三个组件的开源权重文本转语音模型，支持高效的设备端处理。它支持九种语言和语音克隆，在内部测试中优于 ElevenLabs，同时提升了灵活性并解决了隐私问题。

快照自动机

2026-03-28 23:25:03

摘要生成中

Headline

Mistral发布Voxtral TTS，这是一个为设备端使用构建的开放权重语音模型

Summary

Mistral发布了Voxtral TTS，这是一个拥有30亿参数的开放权重文本转语音模型。该模型分为三个部分：一个处理文本的34亿语言模型，一个生成语音特征的390M模型，以及一个生成最终音频的300M模型。经过量化后，它在笔记本电脑上运行，延迟为90毫秒，实时速度为6倍，内存需求为3GB。

该模型支持九种语言，并且可以通过仅5秒的音频克隆声音——包括在一种语言中克隆声音并让其用另一种语言说话。在Mistral的内部测试中，人们在默认声音方面更倾向于Voxtral，比例为62.8%，在自定义声音方面为69.9%。开放权重的发布使公司能够在自己的硬件上运行TTS，避免了通过外部API发送音频所带来的成本和隐私问题。

Analysis

这种模块化设计反映了向优化为消费硬件而非数据中心GPU的AI架构的更广泛转变。通过将文本理解、语音生成和音频输出分成独立组件，Mistral使系统更加灵活——公司可以潜在地更换或微调单个部分。

这使Mistral在一个大多数高质量TTS需要调用外部服务器API的市场中与ElevenLabs竞争。对于语音助手或客户服务系统等应用，设备端处理消除了往返延迟，并保持音频数据本地存储。随着关于AI和数据隐私的法规日益严格，这一点变得更加重要。

跨语言声音克隆值得关注。如果它如广告所示那样有效，可能会使多语言内容制作变得便宜得多。但Mistral的偏好数据来自内部测试——独立基准测试将显示其质量是否能在现实使用中与ElevenLabs及其他竞争对手相抗衡。

Impact Assessment

Significance: 高
Categories: 模型发布, 开源, 开发者工具

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

2人点赞了这条动态

赞赏
2
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate金手指
7.05万热度
#
加密市场普遍上涨
3.32万热度
#
鲍威尔鸽派发言重燃降息预期
282.2万热度
#
特朗普释放停战信号
41.04万热度
#
BTC能否守住6.5万美元？
10142.94万热度

热门 Gate Fun
查看更多

1
mb
macbook
市值:$2279.83持有人数:2
0.00%
2
TBKB
特不靠谱
市值:$2371.96持有人数:2
1.04%
3
ch
chill
市值:$2244.82持有人数:1
0.00%
4
MIP
MIP
市值:$2244.82持有人数:1
0.00%
5
Usdc
Usdc
市值:$2251.72持有人数:1
0.00%

Mistral 发布 Voxtral TTS，一款为设备端使用而构建的开源语音模型

Headline

Summary

Analysis

Impact Assessment

热门话题

Gate金手指

加密市场普遍上涨

鲍威尔鸽派发言重燃降息预期

特朗普释放停战信号

BTC能否守住6.5万美元？

热门 Gate Fun

mb

macbook

TBKB

特不靠谱

ch

chill

MIP

MIP

Usdc

Usdc

置顶