МЕ Новости сообщают, что xAI выпустила два независимых аудио API: Grok STT и Grok TTS, основанные на одной аудио платформе, поддерживающие Grok Voice, автомобильную систему Tesla и службу поддержки Starlink. STT предоставляет REST-пакетную транскрипцию и потоковую передачу через WebSocket, с временными метками на уровне слов, разделением говорящих, многоканальностью и обратной нормализацией текста, охватывая более 25 языков; TTS поддерживает встроенные теги для эмоций и ритма. Также опубликовано сравнение WER, где Grok лидирует в различных сценариях, третьи стороны пока не проводили повторные тесты. Цены: пакетная обработка STT — 0,10 доллара США за час, потоковая — 0,20 доллара США за час, TTS — 4,20 доллара за миллион символов.

MeNews

2026-05-26 17:23:03

Генерация тезисов в процессе

ME News Новости, 18 апреля (UTC+8), по данным мониторинга 动察 Beating, на платформе xAI запущены два независимых API для аудио: Grok Speech to Text и Grok Text to Speech. Оба основаны на одной аудиосистеме, поддерживающей Grok Voice, встроенную систему Tesla и службу поддержки Starlink, и теперь доступны в виде отдельных конечных точек, что позволяет разработчикам напрямую интегрировать голосовые агенты, в реальном времени транскрибировать речь, создавать инструменты для инвалидов и подкасты. STT предлагает два режима. REST API предназначен для пакетной обработки больших аудиофайлов с ответом за миллисекунды; WebSocket API ориентирован на потоковую передачу речи в реальном времени. Включённые возможности включают временные метки на уровне слов, диаризацию говорящих, распознавание по каналам, а также обратную нормализацию текста, то есть автоматическую структуризацию чисел, дат, валют, произнесённых в разговоре. Поддерживается более 25 языков, с возможностью бесшовного переключения между ними в диалоге. xAI также опубликовала сравнительные показатели ошибок распознавания (WER, чем ниже, тем лучше): в целом сценарию Grok — 6.9%, ElevenLabs — 9.0%, Deepgram — 11.0%, AssemblyAI — 12.9%; разрыв в распознавании сущностей телефонных звонков ещё больше: Grok — 5.0%, у трёх других — 12.0%, 13.5%, 21.3%. В популярных сценариях, таких как конференции, видеоподкасты и телефонные звонки, Grok также показывает небольшое преимущество. Эти показатели были опубликованы xAI на основе собственных тестов, сторонние проверки пока отсутствуют. В ценовой политике, пакетная обработка STT стоит 0.10 доллара за час, потоковая — 0.20 доллара за час; TTS — 4.20 доллара за миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных Speech Tags, например \[laugh\], \[sigh\], \[whisper\], \ (Источник: BlockBeats)

XAI-1,74%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
6
Репост
Поделиться

комментарий

Добавить комментарий

SudoSatoshi

· 3ч назад

Многоязычное покрытие более 25+, но каково качество малых языков?
Средний показатель WER выглядит хорошо, но для языков с длинным хвостом это всё ещё может быть катастрофой.

Посмотреть ОригиналОтветить0

AirdropUnderTheNeonBridge

· 3ч назад

Эмоциональные и ритмические встроенные теги? TTS наконец-то перестала быть машиной для заучивания текста, теперь можно создавать озвученные книги или диалоги NPC в играх с разными выразительными оттенками.

Посмотреть ОригиналОтветить0

AirdropCartographer

· 3ч назад

Многоканальный + разделение говорящих, чудо для транскрипции конференционных записей, но при потоковой стоимости 0,2 доллара в час, длительные встречи всё равно не дешевы.

Посмотреть ОригиналОтветить0

PerpPulse

· 3ч назад

Grok Voice、Tesla车载、Starlink客服全用同一套音频栈，马斯克这生态闭环玩得越来越溜了。

Посмотреть ОригиналОтветить0

MintLaterMaybe

· 3ч назад

Что такое нормализация обратного текста? Преобразование чисел в арабские цифры? Эта функция очень важна для постобработки распознавания речи, чтобы не писать регулярные выражения самостоятельно.

Посмотреть ОригиналОтветить0

CliffsideAncientPineAndRolling

· 3ч назад

xAI эта серия API для аудио действует довольно жестко, потоковое распознавание речи (STT) 0.2 долларов/час, синтез речи (TTS) 4.2 доллара/миллион символов, ценовая стратегия явно ориентирована на крупномасштабное коммерческое использование.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.22M Популярность
#
USStrikesIran
9.31M Популярность
#
IsraelStrikesIranBTCPlunges
49.49K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.8M Популярность
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Популярность

Закреплено

Карта сайта

xAI открывает API для аудио Grok STT и TTS, общий уровень ошибок в распознавании речи снижен до 6,9%

Популярные темы

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Закреплено