#STT# 簡評OpenAI發佈的新語音模型
OpenAI發佈了兩款新的STT(語音轉文本)模型和一款TTS(文本轉語音)模型。
簡單體驗了下TTS模型,感覺AI味還是很重,尤其是中文TTS的發音,生硬、不流暢、甚至有明顯發音錯誤。
在中文TTS這塊兒,感覺字節、Azure的TTS能夠商用,OpenAI的還不太行。估計跟訓練數據量有關。
中文STT還沒有體驗,不過從OpenAI給出的性能對比圖來看,scribe-v1是跑過OpenAI的。
我覺得OpenAI還是應該向多模態統一的大模型努力,不要把STT -> LLM -> TTS這三個分開做。
分開的弊端:
- 三者分開在應用角度工程量極大,而且整體調用鏈複雜,延遲很難保障流暢。
- STT -> LLM這一步勢必會丟失信息(語氣、語調、情緒等),而這些信息在人類溝通中更為重要(想象你女朋友跟你說“討厭”時,什麼語氣代表什麼含義)。
估計融合的大模型訓練量和計算量都不是一個量級的,所以當下才這樣選擇,trade-off的選擇。