STTの誤認率は競合製品より低く、TTSはタグを使って声のトーンを細かく調整できる。同じ技術スタックをGrok Voice、テスラ、スターリンクに供給している——マスクは音声インタラクションの上下流を完全に把握しようとしているのか。

原文表示
MeNews
xAI が Grok 音声からテキストへの変換とテキストから音声への変換 API をリリース
ME Newsによると、xAIは正式にGrok STTとGrok TTSの2つの独立した音声APIをリリースしました。Grok STTは高い精度と低遅延を備え、RESTによるバッチ処理やWebSocketによるリアルタイム書き起こしをサポートし、単語レベルのタイムスタンプ、話者分離、多声道、インテリジェントな逆テキスト正規化を備え、25以上の言語をカバーしています。バッチ処理は0.10ドル/時間、ストリーミングは0.20ドル/時間で、誤認識率は複数の競合他社より優れています。Grok TTSは迅速で自然な音声を提供し、タグを使った細粒度制御も可能で、価格は100万文字あたり4.20ドルです。両者は同じ技術スタックに基づいており、Grok Voice、Tesla、Starlinkで使用されています。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし