MEニュース、4月18日（UTC+8）、動察Beatingの監視によると、xAIは2つの独立した音声API：Grok Speech to TextとGrok Text to Speechをリリースしました。両者はGrok Voice、テスラ車載システム、Starlinkカスタマーサポートを支える同じ音声スタックから派生し、今回は独立したエンドポイント形式で公開され、開発者は直接音声代理、リアルタイム文字起こし、アクセシビリティツール、ポッドキャストなどのアプリケーションに接続できます。 STTは2つのモードを提供します。REST APIは大容量音声ファイルのバッチ文字起こしに使用され、ミリ秒単位で応答します；WebSocket APIはリアルタイム音声ストリーム向けです。付帯機能には、単語レベルのタイムスタンプ、話者分離（diarization）、多チャンネル別認識、逆テキスト正規化（Inverse Text Normalization）があります。これは、会話内の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25以上で、会話中にシームレスに切り替え可能です。xAIはまた、一連の誤認識率（WER、数値が低いほど良い）の比較も公開しました：全体シナリオではGrok 6.9%、ElevenLabs 9.0%、Deepgram 11.0%、AssemblyAI 12.9%；「電話通話エンティティ認識」の差はさらに広がり、Grok 5.0%、他の3社はそれぞれ12.0%、13.5%、21.3%。会議、動画ポッドキャスト、電話の3つの一般的なビジネスシナリオでもGrokはわずかにリードしています。この数字はxAIが自主的にテストして公開したもので、第三者による再測定はまだありません。価格設定は、STTバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間；TTSは100万文字あたり4.20ドルです。TTSはインラインのSpeech Tagsを使って感情や韻律を制御可能で、例として \[laugh\]\、\[sigh\]\、\[whisper\]\、\ などがあります。（出典：BlockBeats）

XAI1.48%

GROK-5.89%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

7 いいね

報酬
7
7
リポスト
共有

コメントを追加

BudgetValidator

· 2時間前

音声インフラストラクチャの標準化が始まり、中小開発者に好影響

原文表示返信0

MirrorBallGazingAtTheSky

· 4時間前

同じスタックセットが3つのシナリオをサポート、マスクのこの再利用は6を遊んでいる

原文表示返信0

AirdropSidequest

· 5時間前

WebSocketはストリーミングに適しており、RESTはアーカイブに適している。設計は合理的です

原文表示返信0

CandlewickKid

· 9時間前

xAI ついに音声スタックを切り離し、開発者は大喜び

原文表示返信0

RetroRadioSignal

· 10時間前

Grok の STT は REST + WebSocket の二重モードを採用しており、バッチ処理とリアルタイムの両方に対応していて、かなり細かいです

原文表示返信0

PatinaTradingBell

· 10時間前

テスラとStarlinkの両方で使用されているオーディオスタックは、信頼性が試験済みであるはずです

原文表示返信0

OracleBabysitter

· 10時間前

アクセシビリティツール +1、これこそ技術に求められる温かさだ

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16.23M 人気度
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
819.07K 人気度
#
IsraelStrikesIranBTCPlunges
49.57K 人気度
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M 人気度
#
MicronMarketCapBreaks1Trillion
37.9K 人気度

ピン留め

サイトマップ

xAIがGrokのSTTとTTS音声APIを公開、STTの全体的な誤認識率を6.9%に抑制

人気の話題

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

ピン留め