🔥 Gate Alpha 限时赏金活动第三期上线!
在 Alpha 区交易热门代币,瓜分 $30,000 奖池!
💰 奖励规则:
1️⃣ 连续2日每日交易满 128 USDT,即可参与共享 $20,000 美金盲盒奖励
2️⃣ 累计买入 ≥1,024 USDT,交易量前100名可直领奖励 100美金盲盒
⏰ 活动时间:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即参与交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
#STT# 简评OpenAI发布的新语音模型
OpenAI发布了两款新的STT(语音转文本)模型和一款TTS(文本转语音)模型。
简单体验了下TTS模型,感觉AI味还是很重,尤其是中文TTS的发音,生硬、不流畅、甚至有明显发音错误。
在中文TTS这块儿,感觉字节、Azure的TTS能够商用,OpenAI的还不太行。估计跟训练数据量有关。
中文STT还没有体验,不过从OpenAI给出的性能对比图来看,scribe-v1是跑过OpenAI的。
我觉得OpenAI还是应该向多模态统一的大模型努力,不要把STT -> LLM -> TTS这三个分开做。
分开的弊端:
- 三者分开在应用角度工程量极大,而且整体调用链复杂,延迟很难保障流畅。
- STT -> LLM这一步势必会丢失信息(语气、语调、情绪等),而这些信息在人类沟通中更为重要(想象你女朋友跟你说“讨厌”时,什么语气代表什么含义)。
估计融合的大模型训练量和计算量都不是一个量级的,所以当下才这样选择,trade-off的选择。