ME Newsによると、xAIは2つの独立した音声API：Grok STTとGrok TTSをリリースしました。これらは同じ音声スタックに由来し、Grok Voice、テスラ車載システム、Starlinkカスタマーサポートなどをサポートします。STTはRESTバッチ転写とWebSocketリアルタイムストリームを提供し、単語レベルのタイムスタンプ、話者分離、多チャンネル、逆テキスト正規化を備え、25以上の言語をカバーします。TTSは感情と韻律のインラインタグをサポートします。また、WER比較も公開されており、Grokは多くのシナリオでリードしていますが、第三者による再検証はまだありません。価格設定は、STTバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間、TTSは100万文字あたり4.20ドルです。

MeNews

2026-05-27 05:49:03

概要作成中

MEニュース　4月18日（UTC+8）、動察Beatingの監視によると、xAIは2つの独立した音声API：Grok Speech to TextとGrok Text to Speechをリリースしました。両者はGrok Voice、Teslaの車載システム、Starlinkのカスタマーサポートを支える同じ音声スタックから派生しており、今回は独立したエンドポイント形式で公開され、開発者は直接音声代理、リアルタイム文字起こし、アクセシビリティツール、ポッドキャストなどのアプリケーションに接続可能です。
STTは2つのモードを提供します。REST APIは大容量音声ファイルのバッチ文字起こしに用いられ、ミリ秒単位で応答します；WebSocket APIはリアルタイム音声ストリーム向けです。付帯機能には、単語レベルのタイムスタンプ、話者分離（ダイアリゼーション）、多チャンネル別認識、逆テキスト正規化（Inverse Text Normalization）があります。これは口語の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25以上で、会話中にシームレスに切り替え可能です。
xAIはまた、一連の誤認識率（WER、数値が低いほど良い）の比較結果も公開しました：全体シナリオではGrok 6.9%、ElevenLabs 9.0%、Deepgram 11.0%、AssemblyAI 12.9%；「電話通話の实体识别」では差がさらに拡大し、Grok 5.0%、他の三者はそれぞれ12.0%、13.5%、21.3%。会議、動画ポッドキャスト、電話の三つの一般的なビジネスシーンでもGrokはわずかにリードしています。
この数字はxAIが自主的にテストして公開したもので、第三者による再測定はまだありません。
価格設定は、STTのバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間；TTSは420ドル/100万文字です。
TTSはインラインのSpeech Tagsを用いて感情や韻律を制御可能で、例として \[laugh\]\、\[sigh\]\、\[whisper\]\、\ などがあります。（出典：BlockBeats）

XAI-1.08%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

7 いいね

報酬
7
7
リポスト
共有

コメントを追加

GateUser-7919e6b9

· 6時間前

STTの一括料金は0.1ドル/時間で、Whisper APIよりも少し安いね

原文表示返信0

GateUser-28f37882

· 7時間前

同じスタックにGrok Voice、車載、Starlinkを組み合わせて、xAIのこのリソース統合はなかなか面白い

原文表示返信0

Don'tMessWithSlippage.

· 8時間前

Grok このオーディオスタックがついに公開されました、テスラのオーナーは大喜び

原文表示返信0

ReflectiveChainShadow

· 8時間前

WebSocketリアルタイムストリーム0.2ドル/時間、ライブ字幕のシナリオは動作しますか

原文表示返信0

MossyLedger

· 8時間前

WERの比較は第三者による再検査なし、まずは弾を飛ばして様子を見るだけだ

原文表示返信0

MistBlueLily

· 8時間前

逆テキスト正規化のこの機能は、音声アシスタントの作業に非常に役立ちます。ついに自分でルールを書かなくて済むようになった。

原文表示返信0

NodeUnderTheAurora

· 8時間前

4.2ドル/百万字符のTTSは、ElevenLabsより安いのか高いのか？誰か計算したことがありますか

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16M 人気度
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
824.63K 人気度
#
IsraelStrikesIranBTCPlunges
49.69K 人気度
#
GatePredictionMarketAddsSmartMoneyTracking
12.48M 人気度
#
MicronMarketCapBreaks1Trillion
40.53K 人気度

ピン留め

サイトマップ

xAIがGrokのSTTとTTS音声APIを公開、STT全体の誤認率を6.9%に抑制

人気の話題

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

ピン留め