広場
最新
注目
ニュース
プロフィール
ポスト
Gateアプリをダウンロードするにはスキャンしてください
その他のダウンロードオプション
今日はこれ以上表示しない
GateUser-c96195f0
2025-03-21 09:55:53
フォロー
#STT#
OpenAIが発表した新しい音声モデルの簡単な評価
OpenAIは2つの新しいSTT(音声からテキストへの変換)モデルと1つのTTS(テキストから音声への変換)モデルを発表しました。
TTSモデルを簡単に体験しましたが、AIの感じが非常に強いと感じました。特に中国語のTTSの発音は、硬くて不流暢で、明らかな発音ミスさえあります。
中国語のTTSに関しては、字節やAzureのTTSは商用可能だと感じますが、OpenAIのはまだ難しいと思います。おそらくトレーニングデータの量に関係しています。
中国語のSTTはまだ体験していませんが、OpenAIが提供した性能比較図を見る限り、scribe-v1はOpenAIを超えています。
OpenAIは、マルチモーダルな統合大規模モデルに向けて取り組むべきであり、STT>LLM>TTSを分離すべきではないと思います。
分けることの欠点:
- 三者を分けると、アプリケーションの観点からの工数が非常に大きく、全体の呼び出しチェーンが複雑で、遅延がスムーズに保証されることは難しい。
LLMこのステップでは情報(口調、トーン、感情など)が失われることは避けられませんが、これらの情報は人間のコミュニケーションにおいてさらに重要です(あなたの彼女が「嫌い」と言った時、どの口調がどの意味を表すかを想像してください)。
融合された大規模モデルのトレーニング量と計算量は同じ次元ではないと推定されるので、現在はそのように選択されており、トレードオフの選択である。
STT
-4.19%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
1
リポスト
共有
コメント
0/400
コメント
pi币pi
· 03-21 23:35
車に入って! 🚗
原文表示
返信
0
トピック
#
Gate Initial Listing WLFI
24k 人気度
#
Will Crypto Market Break Out in September?
33k 人気度
#
Are You Bullish or Bearish Today?
28k 人気度
#
GUSD Now Live on Gate
44k 人気度
#
Gate Alpha XLAB Points Airdrop
4k 人気度
ピン
サイトマップ
#STT# OpenAIが発表した新しい音声モデルの簡単な評価
OpenAIは2つの新しいSTT(音声からテキストへの変換)モデルと1つのTTS(テキストから音声への変換)モデルを発表しました。
TTSモデルを簡単に体験しましたが、AIの感じが非常に強いと感じました。特に中国語のTTSの発音は、硬くて不流暢で、明らかな発音ミスさえあります。
中国語のTTSに関しては、字節やAzureのTTSは商用可能だと感じますが、OpenAIのはまだ難しいと思います。おそらくトレーニングデータの量に関係しています。
中国語のSTTはまだ体験していませんが、OpenAIが提供した性能比較図を見る限り、scribe-v1はOpenAIを超えています。
OpenAIは、マルチモーダルな統合大規模モデルに向けて取り組むべきであり、STT>LLM>TTSを分離すべきではないと思います。
分けることの欠点:
- 三者を分けると、アプリケーションの観点からの工数が非常に大きく、全体の呼び出しチェーンが複雑で、遅延がスムーズに保証されることは難しい。
LLMこのステップでは情報(口調、トーン、感情など)が失われることは避けられませんが、これらの情報は人間のコミュニケーションにおいてさらに重要です(あなたの彼女が「嫌い」と言った時、どの口調がどの意味を表すかを想像してください)。
融合された大規模モデルのトレーニング量と計算量は同じ次元ではないと推定されるので、現在はそのように選択されており、トレードオフの選択である。