МЕ Новости сообщают, что xAI выпустила два независимых аудио API: Grok STT и Grok TTS, основанные на одной аудио платформе, поддерживающие Grok Voice, автомобильную систему Tesla и службу поддержки Starlink. STT предоставляет REST-пакетную транскрипцию и потоковую передачу через WebSocket, с временными метками на уровне слов, разделением говорящих, многоканальностью и обратной нормализацией текста, охватывая более 25 языков; TTS поддерживает встроенные теги для эмоций и ритма. Также опубликовано сравнение WER, где Grok лидирует в различных сценариях, третьи стороны пока не проводили повторные тесты. Цены: пакетная обработка STT — 0,10 доллара США за час, потоковая — 0,20 доллара США за час, TTS — 4,20 доллара за миллион символов.

MeNews

2026-05-26 13:41:03

Генерация тезисов в процессе

ME News Новости, 18 апреля (UTC+8), по данным мониторинга 动察 Beating, на платформе xAI запущены два независимых API для аудио: Grok Speech to Text и Grok Text to Speech. Оба основаны на одной аудиосистеме, поддерживающей Grok Voice, встроенную систему Tesla и службу поддержки Starlink, и теперь доступны в виде отдельных конечных точек, что позволяет разработчикам напрямую интегрировать голосовые агенты, в реальном времени транскрибировать, создавать инструменты для инвалидов и подкасты. STT предлагает два режима. REST API предназначен для пакетной обработки больших аудиофайлов с ответом за миллисекунды; WebSocket API ориентирован на потоковую передачу в реальном времени. В дополнение к возможностям включены временные метки на уровне слов, диаризация говорящих, распознавание по каналам и обратная нормализация текста, то есть автоматическая обработка чисел, дат, валют, произнесённых в разговоре, в структурированный нормативный текст. Поддержка более 25 языков, с возможностью бесшовного переключения в диалоге. xAI также опубликовала сравнительный показатель ошибок распознавания слов (WER, чем ниже, тем лучше): в целом сценарии Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; разрыв в распознавании сущностей телефонных звонков ещё больше, Grok 5.0%, у трёх других соответственно 12.0%, 13.5%, 21.3%. В сценариях встреч, видеоподкастов и телефонных звонков Grok также немного превосходит конкурентов. Эти показатели были опубликованы xAI на основе собственных тестов, сторонние проверки пока отсутствуют. В ценовой политике, пакетная обработка STT стоит 0,10 доллара за час, потоковая — 0,20 доллара за час; TTS — 4,20 доллара за миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных тегов речи, например \[laugh\], \[sigh\], \[whisper\], (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
10
3
Поделиться

комментарий

Добавить комментарий

InstantNoodle-LevelResearcher

· 4ч назад

Массовая транскрипция — через REST, в реальном времени — через WebSocket, архитектура довольно практичная.

Посмотреть ОригиналОтветить0

GateUser-f85bc167

· 4ч назад

Подождите реальных результатов тестирования, достаточно посмотреть бенчмарк xAI

Посмотреть ОригиналОтветить0

MarginMom

· 4ч назад

Grok TTS поддержка эмоциональных тегов довольно интересна, в будущем ИИ озвучивание сможет добавлять плачущий тон?

Посмотреть ОригиналОтветить0

GateUser-f92ba9fa

· 4ч назад

25+ языков покрытие, каков результат на китайском, кто-то проверял?

Посмотреть ОригиналОтветить0

Lightning-FastComposure

· 4ч назад

Что такое обратная нормализация текста — это какая-то передовая технология, расскажите подробнее, кто разбирается?

Посмотреть ОригиналОтветить0

HaiyanColdWallet

· 4ч назад

Таймстампы на уровне слов + разделение говорящих, радость протокола собрания

Посмотреть ОригиналОтветить0

QuantsAndCats

· 5ч назад

4.2 доллара/миллион символов TTS — дешевле или дороже, чем ElevenLabs?

Посмотреть ОригиналОтветить0

AmberTeaSwirl

· 5ч назад

Потоковая STT 0,2 доллара/час, должно быть возможно запустить в сценариях с реальными субтитрами

Посмотреть ОригиналОтветить0

MultisigOnRocks

· 5ч назад

Один и тот же аудиоблок подается на Grok Voice, Tesla, Starlink, и экосистема Маска завершена.

Посмотреть ОригиналОтветить0

BalanceScreenshotAfterTheRain

· 5ч назад

xAI эта волна аудио API пришла немного внезапно, цена за STT 0.1 доллара в час — считается ли это честной ценой?

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.21M Популярность
#
USStrikesIran
9.31M Популярность
#
IsraelStrikesIranBTCPlunges
49.45K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.06M Популярность
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Популярность

Закреплено

Карта сайта

xAI открывает API для Grok STT и TTS аудио, общий процент ошибок в распознавании речи снижен до 6.9%

Популярные темы

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Закреплено