🔥 Gate Alpha 限時賞金活動第三期上線!
在 Alpha 區交易熱門代幣,瓜分 $30,000 獎池!
💰 獎勵規則:
1️⃣ 連續2日每日交易滿 128 USDT,即可參與共享 $20,000 美金盲盒獎勵
2️⃣ 累計買入 ≥1,024 USDT,交易量前100名可直領獎勵 100美金盲盒
⏰ 活動時間:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即參與交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
#STT# 簡評OpenAI發佈的新語音模型
OpenAI發佈了兩款新的STT(語音轉文本)模型和一款TTS(文本轉語音)模型。
簡單體驗了下TTS模型,感覺AI味還是很重,尤其是中文TTS的發音,生硬、不流暢、甚至有明顯發音錯誤。
在中文TTS這塊兒,感覺字節、Azure的TTS能夠商用,OpenAI的還不太行。估計跟訓練數據量有關。
中文STT還沒有體驗,不過從OpenAI給出的性能對比圖來看,scribe-v1是跑過OpenAI的。
我覺得OpenAI還是應該向多模態統一的大模型努力,不要把STT -> LLM -> TTS這三個分開做。
分開的弊端:
- 三者分開在應用角度工程量極大,而且整體調用鏈複雜,延遲很難保障流暢。
- STT -> LLM這一步勢必會丟失信息(語氣、語調、情緒等),而這些信息在人類溝通中更為重要(想象你女朋友跟你說“討厭”時,什麼語氣代表什麼含義)。
估計融合的大模型訓練量和計算量都不是一個量級的,所以當下才這樣選擇,trade-off的選擇。