#STT# OpenAI tarafından yayınlanan yeni ses modelinin kısa değerlendirmesi


OpenAI, iki yeni STT (sesten metne) modeli ve bir TTS (metinden sese) modeli yayınladı.
TTS modelini basitçe deneyimledim, AI etkisi hala çok yoğun, özellikle Çince TTS'nin telaffuzu sert, akıcı değil ve hatta belirgin telaffuz hataları var.
Çince TTS alanında, Byte, Azure'un TTS'sinin ticari olarak kullanılabilir olduğunu düşünüyorum, OpenAI'nin ise henüz yeterince iyi olmadığını düşünüyorum. Muhtemelen bu, eğitim veri miktarıyla ilgilidir.
Çinçe STT'yi henüz deneyimlemedim, ancak OpenAI'nin verdiği performans karşılaştırma grafiğine bakılırsa, scribe-v1 OpenAI'yi geçmiş.
LLM
Ayrı olmanın dezavantajları:
- Üçü ayrı ayrı uygulama açısından büyük bir mühendislik hacmine sahiptir ve genel çağrı zinciri karmaşıktır, gecikmenin akıcı bir şekilde sağlanması zordur.
- STT -\u003e LLM bu aşamada bilgi kaybı yaşanacaktır (ton, vurgulama, duygu vb.), ve bu bilgiler insan iletişiminde daha önemlidir (kız arkadaşının "nefret ediyorum" dediğinde hangi tonun hangi anlamı temsil ettiğini hayal et).
Birleşik büyük modelin eğitim miktarı ve hesaplama miktarının aynı seviyede olmadığı tahmin ediliyor, bu yüzden şu anda böyle bir seçim yapılıyor, bir trade-off seçimi.
STT-4.16%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 1
  • Repost
  • Share
Comment
0/400
pi币pivip
· 03-21 23:35
快bir pozisyon girin!🚗
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)