#STT# 簡評OpenAI發佈的新語音模型


OpenAI發佈了兩款新的STT(語音轉文本)模型和一款TTS(文本轉語音)模型。
簡單體驗了下TTS模型,感覺AI味還是很重,尤其是中文TTS的發音,生硬、不流暢、甚至有明顯發音錯誤。
在中文TTS這塊兒,感覺字節、Azure的TTS能夠商用,OpenAI的還不太行。估計跟訓練數據量有關。
中文STT還沒有體驗,不過從OpenAI給出的性能對比圖來看,scribe-v1是跑過OpenAI的。
我覺得OpenAI還是應該向多模態統一的大模型努力,不要把STT -> LLM -> TTS這三個分開做。
分開的弊端:
- 三者分開在應用角度工程量極大,而且整體調用鏈複雜,延遲很難保障流暢。
- STT -> LLM這一步勢必會丟失信息(語氣、語調、情緒等),而這些信息在人類溝通中更為重要(想象你女朋友跟你說“討厭”時,什麼語氣代表什麼含義)。
估計融合的大模型訓練量和計算量都不是一個量級的,所以當下才這樣選擇,trade-off的選擇。
STT5.16%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 1
  • 轉發
  • 分享
留言
0/400
pi币pivip
· 03-21 23:35
快上车!🚗
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)