#STT# OpenAIが発表した新しい音声モデルの簡単な評価
OpenAIは2つの新しいSTT(音声からテキストへの変換)モデルと1つのTTS(テキストから音声への変換)モデルを発表しました。
TTSモデルを簡単に体験しましたが、AIの感じが非常に強いと感じました。特に中国語のTTSの発音は、硬くて不流暢で、明らかな発音ミスさえあります。
中国語のTTSに関しては、字節やAzureのTTSは商用可能だと感じますが、OpenAIのはまだ難しいと思います。おそらくトレーニングデータの量に関係しています。
中国語のSTTはまだ体験していませんが、OpenAIが提供した性能比較図を見る限り、scribe-v1はOpenAIを超えています。
OpenAIは、マルチモーダルな統合大規模モデルに向けて取り組むべきであり、STT>LLM>TTSを分離すべきではないと思います。
分けることの欠点:
- 三者を分けると、アプリケーションの観点からの工数が非常に大きく、全体の呼び出しチェーンが複雑で、遅延がスムーズに保証されることは難しい。
LLMこのステップでは情報(口調、トーン、感情など)が失われることは避けられませんが、これらの情報は人間のコミュニケーションにおいてさらに重要です(あなたの彼女が「嫌い」と言った時、どの口調がどの意味を表すかを想像してください)。
融合された大規模モデルのトレー