2025-03-21 09:55:53

#STT# OpenAIが発表した新しい音声モデルの簡単な評価

OpenAIは2つの新しいSTT（音声からテキストへの変換）モデルと1つのTTS（テキストから音声への変換）モデルを発表しました。
TTSモデルを簡単に体験しましたが、AIの感じが非常に強いと感じました。特に中国語のTTSの発音は、硬くて不流暢で、明らかな発音ミスさえあります。
中国語のTTSに関しては、字節やAzureのTTSは商用可能だと感じますが、OpenAIのはまだ難しいと思います。おそらくトレーニングデータの量に関係しています。
中国語のSTTはまだ体験していませんが、OpenAIが提供した性能比較図を見る限り、scribe-v1はOpenAIを超えています。
OpenAIは、マルチモーダルな統合大規模モデルに向けて取り組むべきであり、STT>LLM>TTSを分離すべきではないと思います。
分けることの欠点：
- 三者を分けると、アプリケーションの観点からの工数が非常に大きく、全体の呼び出しチェーンが複雑で、遅延がスムーズに保証されることは難しい。
LLMこのステップでは情報（口調、トーン、感情など）が失われることは避けられませんが、これらの情報は人間のコミュニケーションにおいてさらに重要です（あなたの彼女が「嫌い」と言った時、どの口調がどの意味を表すかを想像してください）。
融合された大規模モデルのトレーニング量と計算量は同じ次元ではないと推定されるので、現在はそのように選択されており、トレードオフの選択である。

STT-4.19%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
1
リポスト
共有

0/400

pi币pi

· 03-21 23:35

車に入って！ 🚗

原文表示返信0

トピック
#Gate Initial Listing WLFI
24k 人気度
#Will Crypto Market Break Out in September?
33k 人気度
#Are You Bullish or Bearish Today?
28k 人気度
#GUSD Now Live on Gate
44k 人気度
#Gate Alpha XLAB Points Airdrop
4k 人気度

ピン

サイトマップ