ME Newsによると、xAIは正式にGrok STTとGrok TTSの2つの独立した音声APIをリリースしました。Grok STTは高い精度と低遅延を備え、RESTによるバッチ処理やWebSocketによるリアルタイム文字起こしをサポートし、単語レベルのタイムスタンプ、話者分離、多声道、インテリジェントな逆テキスト正規化を備え、25以上の言語をカバーしています。バッチ処理は0.10米ドル/時間、ストリーミングは0.20米ドル/時間で、誤認識率は複数の競合他社より優れています。Grok TTSは迅速で自然な音声を提供し、タグによる細粒度制御も可能で、価格は100万文字あたり4.20米ドルです。両者は同じ技術スタックに基づき、Grok Voice、テスラ、Starlinkで使用されています。

MeNews

2026-05-25 20:56:03

概要作成中

ME News ニュース、4月18日（UTC+8）、xAIは最近、Grok 音声認識（STT）と Grok テキスト音声合成（TTS）の2つの独立した音声APIを正式にリリースしたことを発表しました。Grok STTは高精度、低遅延の文字起こしサービスを提供し、REST APIによるバッチ処理とWebSocket APIによるリアルタイムストリーミング文字起こしをサポートし、単語レベルのタイムスタンプ、話者分離、多声道対応、インテリジェント逆テキスト正規化機能を備えています。記事によると、電話通話、会議、動画/ポッドキャストなどの複数の分野でのベンチマークテストにおいて、その単語誤り率はElevenLabs、Deepgram、AssemblyAIなどの主流商用モデルより優れているとのことです。このサービスは25以上の言語をサポートし、価格はバッチ処理が1時間あたり0.10ドル、ストリーミング処理が1時間あたり0.20ドルです。Grok TTSは、迅速で自然かつ表現力豊かな音声を生成でき、簡単な音声タグを使った細粒度のコントロールも可能です。価格は100万文字あたり4.20ドルです。両方のAPIは、Grok Voice、テスラ車両、Starlinkの顧客サポートに使用されている同じ技術スタックに基づいています。（出典：InFoQ）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

6 いいね

報酬
6
5
1
共有

コメントを追加

GateUser-99725296

· 2時間前

この価格は巻き上げられるのか、AzureとAWSがどう対抗するか見てみよう

原文表示返信0

0xLateBreakfast

· 2時間前

バッチとストリーミングは価格が倍違うので、ビジネスはしっかり計算しなければならない

原文表示返信0

RiskOffRina

· 2時間前

マルチチャンネルサポートは会議の文字起こしにとって非常に重要です。やっと自分で整列させる必要がなくなった。

原文表示返信0

WalletHealthInspector

· 2時間前

Grok Voiceが使っているのはこの2つのAPIですね、ついに分離されましたね

原文表示返信0

MosaicBowtieRealm

· 2時間前

細粒度制御タグは具体的にどのパラメータを制御できるのか、話す速度や音調、それとも感情なのか

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16.18M 人気度
#
USIranDraftDeal
290.89K 人気度
#
IsraelStrikesIranBTCPlunges
49.2K 人気度
#
2gGoldEvery10Minutes
3.05M 人気度
#
HYPEMarketCapSurpassesDOGE
12.65M 人気度

ピン留め

サイトマップ

xAI が Grok 音声からテキストへの変換とテキストから音声への変換 API をリリース

人気の話題

StockTradingChallengeUpTo17000U

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

ピン留め