MEニュース　4月18日（UTC+8）、動察Beatingの監視によると、xAIは2つの独立した音声API：Grok Speech to TextとGrok Text to Speechをリリースしました。両者はGrok Voice、Teslaの車載システム、Starlinkのカスタマーサポートを支える同じ音声スタックから派生しており、今回は独立したエンドポイント形式で公開され、開発者は直接音声代理、リアルタイム文字起こし、アクセシビリティツール、ポッドキャストなどのアプリケーションに接続可能です。 STTは2つのモードを提供します。REST APIは大容量音声ファイルのバッチ文字起こしに用いられ、ミリ秒単位で応答します；WebSocket APIはリアルタイム音声ストリーム向けです。付帯機能には、単語レベルのタイムスタンプ、話者分離（diarization）、多チャンネル別認識、逆テキスト正規化（Inverse Text Normalization）があります。これは口語の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25以上で、会話中にシームレスに切り替え可能です。xAIはまた、一組の誤認識率（WER、数値が低いほど良い）の比較結果も公開しました：全体シナリオではGrok 6.9%、ElevenLabs 9.0%、Deepgram 11.0%、AssemblyAI 12.9%；「電話通話エンティティ認識」の差はさらに広がり、Grok 5.0%、それに対して三者はそれぞれ12.0%、13.5%、21.3%。会議、動画ポッドキャスト、電話の三つの一般的なビジネスシーンでもGrokはわずかにリードしています。この数字はxAIが自主的にテストして公開したもので、第三者による再検証はまだありません。価格設定は、STTのバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間；TTSは100万文字あたり4.20ドルです。TTSはインラインのSpeech Tagsを用いて感情や韻律を制御可能で、例として\[laugh\]\、\[sigh\]\、\[whisper\]\などがあります。（出典：BlockBeats）

XAI-1.74%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

10 いいね

報酬
10
6
リポスト
共有

コメントを追加

SudoSatoshi

· 3時間前

多言語対応は25以上だが、小言語の品質はどうか？
WERの平均は良好だが、長尾言語は依然として地獄かもしれない。

原文表示返信0

AirdropUnderTheNeonBridge

· 3時間前

感情と韻律のインラインタグ？TTSはついにただの読み上げ機械ではなくなった。オーディオブックやゲームのNPC対話でいろいろ遊べる。

原文表示返信0

AirdropCartographer

· 3時間前

マルチチャネル＋話者分離、会議録音の文字起こしの神ツール、しかし0.2ドル/時間のストリーミングコストで、長時間の会議ではあまり安くない。

原文表示返信0

PerpPulse

· 3時間前

Grok Voice、テスラ車載、Starlink カスタマーサポートはすべて同じ音声スタックを使用しており、マスクはこのエコシステムの閉ループをますます巧みに操っている。

原文表示返信0

MintLaterMaybe

· 3時間前

逆テキスト正規化とは何ですか？数字をアラビア数字に変換することですか？この機能は音声書き起こし後の処理にとって非常に重要で、正規表現を自分で書く手間を省けます。

原文表示返信0

CliffsideAncientPineAndRolling

· 3時間前

xAI この波の音声 API の連携攻撃はかなり激しいです。STT のストリーミングは0.2ドル/時間、TTS は4.2ドル/百万文字で、価格戦略は明らかに大規模商用を狙っています。

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16.22M 人気度
#
USStrikesIran
9.31M 人気度
#
IsraelStrikesIranBTCPlunges
49.49K 人気度
#
GatePredictionMarketAddsSmartMoneyTracking
13.8M 人気度
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M 人気度

ピン留め

サイトマップ

xAIがGrokのSTTとTTS音声APIを公開、STTの全体的な誤認識率を6.9%に抑制

人気の話題

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

ピン留め