#STT# OpenAIが発表した新しい音声モデルの簡単な評価


OpenAIは2つの新しいSTT(音声からテキストへの変換)モデルと1つのTTS(テキストから音声への変換)モデルを発表しました。
TTSモデルを簡単に体験しましたが、AIの感じが非常に強いと感じました。特に中国語のTTSの発音は、硬くて不流暢で、明らかな発音ミスさえあります。
中国語のTTSに関しては、字節やAzureのTTSは商用可能だと感じますが、OpenAIのはまだ難しいと思います。おそらくトレーニングデータの量に関係しています。
中国語のSTTはまだ体験していませんが、OpenAIが提供した性能比較図を見る限り、scribe-v1はOpenAIを超えています。
OpenAIは、マルチモーダルな統合大規模モデルに向けて取り組むべきであり、STT>LLM>TTSを分離すべきではないと思います。
分けることの欠点:
- 三者を分けると、アプリケーションの観点からの工数が非常に大きく、全体の呼び出しチェーンが複雑で、遅延がスムーズに保証されることは難しい。
LLMこのステップでは情報(口調、トーン、感情など)が失われることは避けられませんが、これらの情報は人間のコミュニケーションにおいてさらに重要です(あなたの彼女が「嫌い」と言った時、どの口調がどの意味を表すかを想像してください)。
融合された大規模モデルのトレーニング量と計算量は同じ次元ではないと推定されるので、現在はそのように選択されており、トレードオフの選択である。
STT-4.19%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • リポスト
  • 共有
コメント
0/400
pi币pivip
· 03-21 23:35
車に入って! 🚗
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)