xAI が Grok 音声からテキストへの変換とテキストから音声への変換 API をリリース

robot
概要作成中
ME News ニュース、2023年4月18日(UTC+8)、xAIは最近、Grok 音声認識(STT)と Grok テキスト音声合成(TTS)の2つの独立した音声APIを正式にリリースしたことを発表しました。Grok STTは高精度・低遅延の文字起こしサービスを提供し、REST APIによるバッチ処理とWebSocket APIによるリアルタイムストリーミング文字起こしをサポートし、単語レベルのタイムスタンプ、話者分離、多声道対応、インテリジェント逆テキスト正規化機能を備えています。記事によると、電話通話、会議、動画/ポッドキャストなど複数の分野のベンチマークテストにおいて、その単語誤り率はElevenLabs、Deepgram、AssemblyAIなどの主流商用モデルより優れているとのことです。このサービスは25以上の言語をサポートし、料金はバッチ処理が1時間あたり0.10ドル、ストリーミング処理が1時間あたり0.20ドルです。Grok TTSは、迅速で自然かつ表現力豊かな音声を生成でき、シンプルな音声タグによる細粒度コントロールも可能です。価格は100万文字あたり4.20ドルです。両方のAPIは、Grok Voice、テスラ車両、Starlinkの顧客サポートに使用されている同じ技術スタックに基づいています。(出典:InFoQ)
XAI-2.15%
GROK3.4%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 7
  • 3
  • 共有
コメント
コメントを追加
コメントを追加
RiskParachute
· 7時間前
ちょっと待って、TTSはタグを使って細かく制御できるの?それなら感情や語調も調整できるの?
原文表示返信0
BitByBitBenny
· 8時間前
単語レベルのタイムスタンプ+話者分離、会議議事録の神ツールだね、試してみたい
原文表示返信0
FrictionlessFred
· 8時間前
Grok Voice、テスラ、Starlink は共通の技術スタックを使用しており、マスクはこのエコシステムの閉ループを理解している
原文表示返信0
GoldfishUnderTheIce
· 8時間前
逆テキスト正規化とは何のハイテク技術か、口語を標準的な文章に戻すことですか。
原文表示返信0
Don'tMessWithSlippage.
· 8時間前
25の言語対応、中文の効果はどうですか?誰か試した人はいますか?
原文表示返信0
YieldBonsai
· 8時間前
4.20 ドル/百万文字、この数字はわざとですかね
原文表示返信0
IOnlyTrustOn-ChainData.
· 8時間前
xAI この波の音声 API 価格設定はかなり厳しいですね。大量に0.1ドル/時間で、ASR(自動音声認識)メーカーの競争が激化しそうです。
原文表示返信0