ME Newsによると、xAIは2つの独立した音声API:Grok STTとGrok TTSをリリースしました。これらは同じ音声スタックに由来し、Grok Voice、テスラ車載システム、Starlinkカスタマーサポートなどをサポートします。STTはRESTバッチ転写とWebSocketリアルタイムストリームを提供し、単語レベルのタイムスタンプ、話者分離、多チャンネル、逆テキスト正規化を備え、25以上の言語をカバーします。TTSは感情と韻律のインラインタグをサポートします。さらに、WER比較を公開し、Grokは多くのシナリオでリードしていますが、第三者による再検証はまだありません。価格設定:STTバッチ処理は0.10ドル/時間、ストリーミングは0.20ドル/時間、TTSは100万文字あたり4.20ドルです。
xAI この音声APIの価格設定はちょっと面白いですね。STTのバッチ処理はわずか0.1ドル/時間なのに、TTSは逆に4.2ドル/百万文字と高いです。感情タグ付けのこのプレミアムは何ですか?