MEニュース　4月18日（UTC+8）、動察Beatingの監視によると、xAIは2つの独立した音声API：Grok Speech to TextとGrok Text to Speechをリリースしました。両者はGrok Voice、テスラ車載システム、Starlinkカスタマーサポートを支える同じ音声スタックから派生し、今回は独立したエンドポイント形式で公開され、開発者は直接音声代理、リアルタイム文字起こし、アクセシビリティツール、ポッドキャストなどのアプリケーションに接続可能です。
STTは2つのモードを提供します。REST APIは大容量音声ファイルのバッチ文字起こしに使用され、ミリ秒単位で応答します；WebSocket APIはリアルタイム音声ストリーム向けです。付帯機能には、単語レベルのタイムスタンプ、話者分離（ダイアリゼーション）、多チャンネル別認識、逆テキスト正規化（Inverse Text Normalization）があります。これは口語の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25以上で、会話中にシームレスに切り替え可能です。
xAIはまた、一連の誤認識率（WER、数値が低いほど良い）の比較も公開しました：全体シナリオではGrok 6.9%、ElevenLabs 9.0%、Deepgram 11.0%、AssemblyAI 12.9%；「電話通話エンティティ認識」の差はさらに広がり、Grok 5.0%、それに対して三者はそれぞれ12.0%、13.5%、21.3%。会議、動画ポッドキャスト、電話の三つの一般的なビジネスシーンでもGrokはわずかにリードしています。
この数字はxAIが自主的にテストして公開したもので、第三者による再測定はまだありません。
価格設定は、STTのバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間；TTSは100万文字あたり4.20ドルです。
TTSはインラインのSpeech Tagsを使って感情や韻律を制御可能で、例として \[laugh\]\、\[sigh\]\、\[whisper\]\、\ などがあります。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

11 いいね

報酬
11
12
1
共有

コメントを追加

WhitepaperByTheRoadside

· 1時間前

単語レベルのタイムスタンプ + 話者分離、会議記録のシナリオは狂ったように進んでいる

原文表示返信0

Lime-ColoredStop-LossLine

· 13時間前

バッチ処理 0.1ドル/時間は本当に魅力的だが、ストリーミングの倍増価格設定は明らかに大量利用を促している

原文表示返信0

GateUser-83a2dd8a

· 13時間前

25+ 言語対応、中文の効果はどうですか、誰か試した人はいますか

原文表示返信0

TheProphetOfToast

· 14時間前

感情リズムのインラインタグ、ついにロボットの読み上げを聞かなくて済むようになった

原文表示返信0

GateUser-b665e41c

· 15時間前

テスラの車載システム統合、運転中の音声対話遅延は何ミリ秒まで抑えられるか

原文表示返信0

PunkRiskMgr

· 16時間前

Starlink カスタマーサポートも導入されており、農村地域のアクセント認識は訓練データの豊富な資源となっている

原文表示返信0

ToBeHonest,You'llLose

· 16時間前

LLMの台頭から音声へ、多モーダル戦争は正式に後半戦に突入した

原文表示返信0

HashbrownHero

· 16時間前

大量のこの価格での書き起こし、字幕チームやポッドキャストホストは一斉に移行するだろう

原文表示返信0

GateUser-bee672a5

· 16時間前

待ち受けるオープンソースコミュニティによるWERの再現、xAIのベンチマークはまず疑問を持つ習慣

原文表示返信0

TwoFactorZen

· 16時間前

REST + WebSocket 二模式、开发者友好度最大化

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16.03M 人気度
#
IsraelStrikesIranBTCPlunges
49.83K 人気度
#
GatePredictionMarketAddsSmartMoneyTracking
13.25M 人気度
#
2gGoldEvery10Minutes
3.09M 人気度
#
#DailyPolymarketHotspot
447.34K 人気度

ピン留め

サイトマップ

xAIがGrokのSTTとTTS音声APIを公開、STTの全体的な誤認識率を6.9%に抑制

人気の話題

StockTradingChallengeUpTo17000U

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

2gGoldEvery10Minutes

#DailyPolymarketHotspot

ピン留め