xAI が Grok 音声からテキストへの変換とテキストから音声への変換 API をリリース

robot
概要作成中
ME News ニュース、4月18日(UTC+8)、xAIは最近、Grok 音声認識(STT)と Grok テキスト音声合成(TTS)の2つの独立した音声APIを正式にリリースしたことを発表しました。Grok STTは高精度、低遅延の文字起こしサービスを提供し、REST APIによるバッチ処理とWebSocket APIによるリアルタイムストリーミング文字起こしをサポートし、単語レベルのタイムスタンプ、話者分離、多声道対応、インテリジェント逆テキスト正規化機能を備えています。記事によると、電話通話、会議、動画/ポッドキャストなどの複数の分野でのベンチマークテストにおいて、その単語誤り率はElevenLabs、Deepgram、AssemblyAIなどの主流商用モデルより優れているとのことです。このサービスは25以上の言語をサポートし、価格はバッチ処理が1時間あたり0.10ドル、ストリーミング処理が1時間あたり0.20ドルです。Grok TTSは、迅速で自然かつ表現力豊かな音声を生成でき、簡単な音声タグを使った細粒度のコントロールも可能です。価格は100万文字あたり4.20ドルです。両方のAPIは、Grok Voice、テスラ車両、Starlinkの顧客サポートに使用されている同じ技術スタックに基づいています。(出典:InFoQ)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • 1
  • 共有
コメント
コメントを追加
コメントを追加
GateUser-99725296
· 2時間前
この価格は巻き上げられるのか、AzureとAWSがどう対抗するか見てみよう
原文表示返信0
0xLateBreakfast
· 2時間前
バッチとストリーミングは価格が倍違うので、ビジネスはしっかり計算しなければならない
原文表示返信0
RiskOffRina
· 2時間前
マルチチャンネルサポートは会議の文字起こしにとって非常に重要です。やっと自分で整列させる必要がなくなった。
原文表示返信0
WalletHealthInspector
· 2時間前
Grok Voiceが使っているのはこの2つのAPIですね、ついに分離されましたね
原文表示返信0
MosaicBowtieRealm
· 2時間前
細粒度制御タグは具体的にどのパラメータを制御できるのか、話す速度や音調、それとも感情なのか
原文表示返信0
  • ピン留め