MEニュース 4月18日(UTC+8)、動察Beatingの監視によると、xAIは2つの独立した音声API:Grok Speech to TextとGrok Text to Speechをリリースしました。両者はGrok Voice、Teslaの車載システム、Starlinkのカスタマーサポートを支える同じ音声スタックから派生しており、今回は独立したエンドポイント形式で公開され、開発者は直接音声代理、リアルタイム文字起こし、アクセシビリティツール、ポッドキャストなどのアプリケーションに接続可能です。 STTは2つのモードを提供します。REST APIは大容量音声ファイルのバッチ文字起こしに用いられ、ミリ秒単位で応答します;WebSocket APIはリアルタイム音声ストリーム向けです。付帯機能には、単語レベルのタイムスタンプ、話者分離(ダイアリゼーション)、多チャンネル別認識、逆テキスト正規化(Inverse Text Normalization)があります。これは口語の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25以上で、会話中にシームレスに切り替え可能です。 xAIはまた、一連の誤認識率(WER、数値が低いほど良い)の比較結果も公開しました:全体シナリオではGrok 6.9%、ElevenLabs 9.0%、Deepgram 11.0%、AssemblyAI 12.9%;「電話通話の实体识别」では差がさらに拡大し、Grok 5.0%、他の三者はそれぞれ12.0%、13.5%、21.3%。会議、動画ポッドキャスト、電話の三つの一般的なビジネスシーンでもGrokはわずかにリードしています。 この数字はxAIが自主的にテストして公開したもので、第三者による再測定はまだありません。 価格設定は、STTのバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間;TTSは420ドル/100万文字です。 TTSはインラインのSpeech Tagsを用いて感情や韻律を制御可能で、例として \\[laugh\\]\、\\[sigh\\]\、\\[whisper\\]\、\ などがあります。(出典:BlockBeats)
xAIがGrokのSTTとTTS音声APIを公開、STT全体の誤認率を6.9%に抑制
STTは2つのモードを提供します。REST APIは大容量音声ファイルのバッチ文字起こしに用いられ、ミリ秒単位で応答します;WebSocket APIはリアルタイム音声ストリーム向けです。付帯機能には、単語レベルのタイムスタンプ、話者分離(ダイアリゼーション)、多チャンネル別認識、逆テキスト正規化(Inverse Text Normalization)があります。これは口語の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25以上で、会話中にシームレスに切り替え可能です。
xAIはまた、一連の誤認識率(WER、数値が低いほど良い)の比較結果も公開しました:全体シナリオではGrok 6.9%、ElevenLabs 9.0%、Deepgram 11.0%、AssemblyAI 12.9%;「電話通話の实体识别」では差がさらに拡大し、Grok 5.0%、他の三者はそれぞれ12.0%、13.5%、21.3%。会議、動画ポッドキャスト、電話の三つの一般的なビジネスシーンでもGrokはわずかにリードしています。
この数字はxAIが自主的にテストして公開したもので、第三者による再測定はまだありません。
価格設定は、STTのバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間;TTSは420ドル/100万文字です。
TTSはインラインのSpeech Tagsを用いて感情や韻律を制御可能で、例として \[laugh\]\、\[sigh\]\、\[whisper\]\、\ などがあります。(出典:BlockBeats)