ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, на платформе xAI запущены два независимых API для аудио: Grok Speech to Text и Grok Text to Speech. Оба основаны на одной аудиосистеме, поддерживающей Grok Voice, автомобильную систему Tesla и службу поддержки Starlink, и теперь доступны в виде отдельных конечных точек, что позволяет разработчикам напрямую интегрировать голосовых агентов, в реальном времени транскрибировать речь, создавать инструменты для инвалидов и подкасты. STT предлагает два режима. REST API предназначен для пакетной обработки больших аудиофайлов с ответом за миллисекунды; WebSocket API ориентирован на потоковую передачу речи в реальном времени. Включённые возможности включают временные метки на уровне слов, диаризацию говорящих, распознавание по каналам и обратную нормализацию текста, то есть автоматическую структуризацию чисел, дат, валют, произнесённых в разговоре. Поддерживается более 25 языков, с возможностью бесшовного переключения между ними в диалоге. xAI также опубликовала сравнительный показатель ошибок распознавания (WER, чем ниже, тем лучше): в целом сценарии Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; разрыв в распознавании сущностей телефонных звонков ещё больше, Grok 5.0%, а у трёх других соответственно 12.0%, 13.5%, 21.3%. В сценариях встреч, видеоподкастов и телефонных звонков Grok также немного превосходит конкурентов. Эти показатели были протестированы и опубликованы xAI, сторонняя проверка пока отсутствует. В ценовой политике, пакетная обработка STT стоит 0,10 доллара за час, потоковая — 0,20 доллара за час; TTS — 4,20 доллара за миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных меток речи, например \[laugh\], \[sigh\], \[whisper\], \ (Источник: BlockBeats)

XAI-0,55%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

7 Лайков

Награда
7
7
Репост
Поделиться

комментарий

Добавить комментарий

GateUser-7919e6b9

· 2ч назад

STT в массовом режиме всего 0,1 доллара в час, дешевле, чем Whisper API.

Посмотреть ОригиналОтветить0

GateUser-28f37882

· 4ч назад

Одна и та же технология стека включает Grok Voice, автомобильную связь, Starlink, и эта волна интеграции ресурсов xAI действительно что-то значительное

Посмотреть ОригиналОтветить0

Don'tMessWithSlippage.

· 4ч назад

Grok этот аудиостек наконец открыт для публики, владельцы Tesla ликуют

Посмотреть ОригиналОтветить0

ReflectiveChainShadow

· 4ч назад

WebSocket实时流0.2美元/小时，直播字幕场景能跑通吗

Посмотреть ОригиналОтветить0

MossyLedger

· 4ч назад

WER сравнивать без сторонней повторной проверки, пусть пуля полетит немного.

Посмотреть ОригиналОтветить0

MistBlueLily

· 4ч назад

Обратная нормализация текста очень полезна для голосовых помощников, наконец-то не нужно писать правила самостоятельно

Посмотреть ОригиналОтветить0

NodeUnderTheAurora

· 4ч назад

4.2 доллара/миллион символов TTS — дешевле или дороже, чем ElevenLabs? Кто-нибудь подсчитывал?

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.23M Популярность
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.58K Популярность
#
IsraelStrikesIranBTCPlunges
49.57K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Популярность
#
MicronMarketCapBreaks1Trillion
38.62K Популярность

Закреплено

Карта сайта

xAI открывает API для аудио Grok STT и TTS, общий процент ошибок в распознавании речи снижен до 6,9%

Популярные темы

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закреплено