#STT# 简评OpenAI发布的新语音模型


OpenAI发布了两款新的STT(语音转文本)模型和一款TTS(文本转语音)模型。
简单体验了下TTS模型,感觉AI味还是很重,尤其是中文TTS的发音,生硬、不流畅、甚至有明显发音错误。
在中文TTS这块儿,感觉字节、Azure的TTS能够商用,OpenAI的还不太行。估计跟训练数据量有关。
中文STT还没有体验,不过从OpenAI给出的性能对比图来看,scribe-v1是跑过OpenAI的。
我觉得OpenAI还是应该向多模态统一的大模型努力,不要把STT -> LLM -> TTS这三个分开做。
分开的弊端:
- 三者分开在应用角度工程量极大,而且整体调用链复杂,延迟很难保障流畅。
- STT -> LLM这一步势必会丢失信息(语气、语调、情绪等),而这些信息在人类沟通中更为重要(想象你女朋友跟你说“讨厌”时,什么语气代表什么含义)。
估计融合的大模型训练量和计算量都不是一个量级的,所以当下才这样选择,trade-off的选择。
STT0.74%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 1
  • 转发
  • 分享
评论
0/400
pi币pivip
· 03-21 23:35
快上车!🚗
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)