ME News ニュース、2023年4月18日(UTC+8)、xAIは最近、Grok 音声認識(STT)とGrok テキスト読み上げ(TTS)の2つの独立した音声APIを正式にリリースしたことを発表しました。Grok STTは高精度・低遅延の文字起こしサービスを提供し、REST APIによるバッチ処理とWebSocket APIによるリアルタイムストリーミング文字起こしをサポートし、単語レベルのタイムスタンプ、話者分離、多声道対応、インテリジェント逆テキスト正規化機能を備えています。記事によると、電話通話、会議、動画・ポッドキャストなど複数の分野のベンチマークテストにおいて、その単語誤り率はElevenLabs、Deepgram、AssemblyAIなどの主流商用モデルより優れているとのことです。このサービスは25以上の言語をサポートし、料金はバッチ処理が1時間あたり0.10ドル、ストリーミング処理が1時間あたり0.20ドルです。Grok TTSは、迅速で自然かつ表現力豊かな音声を生成でき、シンプルな音声タグによる細粒度コントロールも可能です。価格は100万文字あたり4.20ドルです。両方のAPIは、Grok Voice、テスラ車両、Starlinkの顧客サポートに使用されている同じ技術スタックに基づいています。(出典:InFoQ)
xAI は Grok 音声からテキストへの変換とテキストから音声への変換 API をリリースしました
ME News ニュース、2023年4月18日(UTC+8)、xAIは最近、Grok 音声認識(STT)とGrok テキスト読み上げ(TTS)の2つの独立した音声APIを正式にリリースしたことを発表しました。Grok STTは高精度・低遅延の文字起こしサービスを提供し、REST APIによるバッチ処理とWebSocket APIによるリアルタイムストリーミング文字起こしをサポートし、単語レベルのタイムスタンプ、話者分離、多声道対応、インテリジェント逆テキスト正規化機能を備えています。記事によると、電話通話、会議、動画・ポッドキャストなど複数の分野のベンチマークテストにおいて、その単語誤り率はElevenLabs、Deepgram、AssemblyAIなどの主流商用モデルより優れているとのことです。このサービスは25以上の言語をサポートし、料金はバッチ処理が1時間あたり0.10ドル、ストリーミング処理が1時間あたり0.20ドルです。Grok TTSは、迅速で自然かつ表現力豊かな音声を生成でき、シンプルな音声タグによる細粒度コントロールも可能です。価格は100万文字あたり4.20ドルです。両方のAPIは、Grok Voice、テスラ車両、Starlinkの顧客サポートに使用されている同じ技術スタックに基づいています。(出典:InFoQ)