2025-03-21 09:55:53

#STT# 简评OpenAI发布的新语音模型

OpenAI发布了两款新的STT（语音转文本）模型和一款TTS（文本转语音）模型。
简单体验了下TTS模型，感觉AI味还是很重，尤其是中文TTS的发音，生硬、不流畅、甚至有明显发音错误。
在中文TTS这块儿，感觉字节、Azure的TTS能够商用，OpenAI的还不太行。估计跟训练数据量有关。
中文STT还没有体验，不过从OpenAI给出的性能对比图来看，scribe-v1是跑过OpenAI的。
我觉得OpenAI还是应该向多模态统一的大模型努力，不要把STT -> LLM -> TTS这三个分开做。
分开的弊端：
- 三者分开在应用角度工程量极大，而且整体调用链复杂，延迟很难保障流畅。
- STT -> LLM这一步势必会丢失信息（语气、语调、情绪等），而这些信息在人类沟通中更为重要（想象你女朋友跟你说“讨厌”时，什么语气代表什么含义）。
估计融合的大模型训练量和计算量都不是一个量级的，所以当下才这样选择，trade-off的选择。

STT0.97%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
1
转发
分享

0/400

pi币pi

· 03-21 23:35

快上车！🚗