ME News Новости, 18 апреля (UTC+8), по данным мониторинга 动察 Beating, на платформе xAI запущены два независимых API для аудио: Grok Speech to Text и Grok Text to Speech. Оба основаны на одной аудиосистеме, поддерживающей Grok Voice, автомобильную систему Tesla и службу поддержки Starlink, и теперь доступны в виде отдельных конечных точек, что позволяет разработчикам напрямую интегрировать голосовые агенты, в реальном времени транскрибировать, создавать инструменты для инвалидов и подкасты. STT предлагает два режима. REST API предназначен для пакетной обработки больших аудиофайлов с ответом за миллисекунды; WebSocket API ориентирован на потоковую передачу в реальном времени. В дополнение к возможностям включены временные метки на уровне слов, диаризация говорящих, распознавание по каналам, а также обратная нормализация текста, то есть автоматическая структуризация чисел, дат, валют, произнесённых в разговоре. Поддержка более 25 языков, с возможностью бесшовного переключения в диалоге. xAI также опубликовала сравнительные показатели ошибок распознавания слов (WER, чем ниже, тем лучше): в целом сценарию Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; разница в распознавании сущностей телефонных звонков ещё больше, Grok 5.0%, у трёх других соответственно 12.0%, 13.5%, 21.3%. В сценариях встреч, видеоподкастов и телефонных звонков Grok также немного опережает конкурентов. Эти показатели были протестированы и опубликованы xAI, третьи стороны не проводили независимую проверку. В ценовой политике, пакетная обработка STT стоит 0,10 доллара за час, потоковая — 0,20 доллара за час; TTS — 4,20 доллара за миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных тегов речи, например \[laugh\], \[sigh\], \[whisper\], \ (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

12 Лайков

Награда
12
5
Репост
Поделиться

комментарий

Добавить комментарий

Post-RainTvl

· 2ч назад

Маск делает очень крупный ход, скорость инфраструктуризации xAI быстрее, чем ожидалось

Посмотреть ОригиналОтветить0

TacoTreasury

· 6ч назад

Grok голосовая часть довольно глубоко проработана, в автомобильных системах и спутниковое обслуживание используют один и тот же набор, стабильность должна быть хорошей

Посмотреть ОригиналОтветить0

GateUser-7cb48814

· 7ч назад

WebSocket реальное время транскрипции, сценарий живых субтитров прямо готов

Посмотреть ОригиналОтветить0

TheProphetOfToast

· 7ч назад

Автомобильная система Tesla однородна, экосистема голосового взаимодействия в автомобиле, возможно, потребуется интеграция

Посмотреть ОригиналОтветить0

GateUser-e4fb1fbe

· 7ч назад

Одна и та же аудиостек поддерживает так много сценариев, повторное использование инженерных решений выполнено отлично

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.22M Популярность
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
816.17K Популярность
#
IsraelStrikesIranBTCPlunges
49.57K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Популярность
#
MicronMarketCapBreaks1Trillion
36.04K Популярность

Закреплено

Карта сайта

xAI открывает API для Grok STT и TTS аудио, общий процент ошибок в распознавании речи снижен до 6.9%

Популярные темы

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закреплено