Voxtral:开源 TTS 盲测击败 ElevenLabs,笔电就能跑

robot
摘要生成中

标题

Mistral 的 Voxtral:盲测赢了 ElevenLabs,还能本地跑。

摘要

Rohan Paul 注意到一组对比数据:多语言音色克隆盲测里,评审在自然度、口音还原、相似度三项上,70% 的时间选了 Mistral 新出的 Voxtral。40 亿参数,3 秒参考音频克隆音色,支持 9 种语言,笔电上 70ms 延迟。开源权重意味着企业能自己跑,不用按 API 次数付钱。

核心要点

  • 70% 偏好率:9 种语言的母语评审盲测,看自然度、口音准确度、跟原声像不像。
  • 打的是谁:赢了 ElevenLabs Flash v2.5,跟 v3 打平。
  • 技术特点:Transformer 架构,对停顿和语调这些说话习惯抓得更细;开源权重能本地跑,省 API 费,不被供应商卡脖子。
  • 许可问题:模型本身能商用,但参考音色是 CC BY-NC。拿别人声音做产品,法律上不太清楚能不能行。

为什么说这次不一样

  • 成本和控制权
    • ElevenLabs:按字符收钱,用他们的服务器和闭源 API。
    • Voxtral:下载权重自己跑,不按次收费全链路自己控制
  • 能做什么
    • 语音 agent、同传、配音这些场景,开源权重让试错和扩规模都便宜,隐私合规也好处理。

快速对比

维度 Voxtral ElevenLabs
模型访问 开源权重,本地能跑 闭源 API
延迟 笔电上约 70ms 看云端和套餐
语种 9 种 多语言(本文没细说)
音色克隆 3 秒参考音频 支持(本文没展开)
评测 盲测 70% 偏好 Flash v2.5 输了,v3 差不多
商用限制 参考音色 CC BY-NC 平台许可和计费限制

评测方法和细节看 Mistral 博客、文档和 Hugging Face 仓库。

行业背景

这次发布又是 开源 vs. 闭源 的老话题。Mistral 从语言模型往语音走,多模态布局在推进。需要稳定、可控、成本可预期的语音应用,开源权重 + 自己部署 在成本、性能、合规之间找到了一个平衡点。

风险

  • 许可不确定:参考音色是 CC BY-NC,商业产品直接克隆别人声音,版权和肖像权怎么算还不清楚。
  • 对比范围有限:只跟 ElevenLabs 比了,没测 Coqui、Bark 这些其他开源 TTS。

影响评估

  • 重要性:高
  • 类别:模型发布、开源、市场影响

判断: 需要语音链路可控、成本可预期的团队,现在入场不算晚。开发者和企业级 Builder 优势明显;纯做交易的关系不大。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论