xAIがGrokのSTTとTTS音声APIを公開、STTの全体的な誤認識率を6.9%に抑制

robot
概要作成中
MEニュース 4月18日(UTC+8)、動察Beatingの監視によると、xAIは2つの独立した音声API:Grok Speech to TextとGrok Text to Speechをリリースしました。両者はGrok Voice、Tesla車載システム、Starlinkカスタマーサポートを支える同じ音声スタックから派生し、今回は独立したエンドポイント形式で公開され、開発者は直接音声代理、リアルタイム文字起こし、アクセシビリティツール、ポッドキャストなどのアプリケーションに接続可能です。 STTは2つのモードを提供します。REST APIは大容量音声ファイルのバッチ文字起こしに使用され、ミリ秒単位で応答します;WebSocket APIはリアルタイム音声ストリーム向けです。付帯機能には、単語レベルのタイムスタンプ、話者分離(diarization)、多チャンネル別認識、逆テキスト正規化(Inverse Text Normalization)があります。これは口語の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25以上で、会話中にシームレスに切り替え可能です。 xAIはまた、一連の誤認識率(WER、数値が低いほど良い)の比較も発表しました:全体シナリオではGrok 6.9%、ElevenLabs 9.0%、Deepgram 11.0%、AssemblyAI 12.9%;「電話通話エンティティ認識」の差はさらに広がり、Grok 5.0%、他の3社はそれぞれ12.0%、13.5%、21.3%。会議、動画ポッドキャスト、電話の3つの一般的なビジネスシーンでもGrokはわずかにリードしています。この数字はxAIが自主的にテストして公開したもので、第三者による再測定はまだありません。 価格設定は、STTのバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間;TTSは100万文字あたり4.20ドルです。TTSはインラインのSpeech Tagsを使って感情や韻律を制御可能で、例として \[laugh\]\、\[sigh\]\、\[whisper\]\、\ があります。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 10
  • 3
  • 共有
コメント
コメントを追加
コメントを追加
InstantNoodle-LevelResearcher
· 3時間前
バッチ転写にはRESTを、リアルタイムにはWebSocketを使用し、アーキテクチャの設計は非常に実用的です
原文表示返信0
GateUser-f85bc167
· 3時間前
本物のスコアを待つだけで、xAIのベンチマークを見ておけばいい
原文表示返信0
MarginMom
· 3時間前
Grok TTSが感情タグをサポートしているのは面白いですね。将来的にAIのナレーションで泣き声のような表現ができるようになるのでしょうか?
原文表示返信0
GateUser-f92ba9fa
· 3時間前
25+言語カバー、中文の効果はどうですか、誰かテストしましたか
原文表示返信0
Lightning-FastComposure
· 3時間前
逆テキスト正規化って何のすごい技術なのか、詳しい人教えてもらえますか?
原文表示返信0
HaiyanColdWallet
· 3時間前
単語レベルのタイムスタンプ+話者分離、会議記録の党狂喜
原文表示返信0
QuantsAndCats
· 3時間前
4.2ドル/百万字符のTTSは、ElevenLabsより安いですか、それとも高いですか?
原文表示返信0
AmberTeaSwirl
· 3時間前
ストリーミングSTT 0.2ドル/時間、リアルタイム字幕シナリオは動作可能だと思われる
原文表示返信0
MultisigOnRocks
· 3時間前
同一音频栈喂给Grok Voice、特斯拉、Starlink,马斯克生态闭环了
返信0
BalanceScreenshotAfterTheRain
· 3時間前
xAIのこの音声APIは少し突然でしたね、STTの価格が0.1ドル/時間は良心的ですか?
原文表示返信0
もっと見る