МЕ Новости сообщают, что xAI выпустила два независимых аудио API: Grok STT и Grok TTS, основанные на одной аудио платформе, поддерживающие Grok Voice, автомобильную систему Tesla и службу поддержки Starlink. STT предоставляет REST-пакетную транскрипцию и потоковую передачу через WebSocket, с временными метками на уровне слов, разделением говорящих, многоканальностью и обратной нормализацией текста, охватывая более 25 языков; TTS поддерживает встроенные теги для эмоций и ритма. Также опубликовано сравнение WER, где Grok лидирует в различных сценариях, третьи стороны пока не проводили повторные тесты. Цены: пакетная обработка STT — 0,10 доллара США за час, потоковая — 0,20 доллара США за час, TTS — 4,20 доллара за миллион символов.

MeNews

2026-05-27 10:24:48

Генерация тезисов в процессе

ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, на платформе xAI запущены два независимых API для аудио: Grok Speech to Text и Grok Text to Speech. Оба основаны на одной аудиосистеме, поддерживающей Grok Voice, автомобильную систему Tesla и службу поддержки Starlink, и теперь доступны в виде отдельных конечных точек, что позволяет разработчикам напрямую интегрировать голосовые агенты, в реальном времени транскрибировать, использовать инструменты для инвалидов и подкасты. STT предлагает два режима. REST API предназначен для пакетной обработки больших аудиофайлов с ответом за миллисекунды; WebSocket API ориентирован на потоковую передачу в реальном времени. Включённые возможности включают временные метки на уровне слов, диаризацию говорящих, распознавание по каналам и обратную нормализацию текста, то есть автоматическую обработку чисел, дат, валют, произнесённых в разговоре, в структурированный нормативный текст. Поддержка более 25 языков, с возможностью бесшовного переключения в диалоге. xAI также опубликовала сравнительный показатель ошибок распознавания (WER, чем ниже, тем лучше): в целом сценарию Grok — 6.9%, ElevenLabs — 9.0%, Deepgram — 11.0%, AssemblyAI — 12.9%; разрыв в распознавании сущностей телефонных звонков ещё больше, Grok — 5.0%, а у трёх других соответственно 12.0%, 13.5% и 21.3%. В популярных сценариях, таких как конференции, видеоподкасты и телефонные звонки, Grok также немного превосходит конкурентов. Эти показатели были опубликованы xAI на основе собственных тестов, сторонние проверки пока отсутствуют. В ценовой политике, пакетная обработка STT стоит 0.10 доллара за час, потоковая — 0.20 доллара за час; TTS — 4.20 доллара за миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных Speech Tags, например \[laugh\], \[sigh\], \[whisper\], \ (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

11 Лайков

Награда
11
11
1
Поделиться

комментарий

Добавить комментарий

Lime-ColoredStop-LossLine

· 10ч назад

Пакетная обработка 0,1 доллара/час — действительно круто, но потоковое удвоение цен явно заставляет вас переходить к массовым объемам

Посмотреть ОригиналОтветить0

GateUser-83a2dd8a

· 10ч назад

25+ языков покрытие, каков результат на китайском, кто-то проверял?

Посмотреть ОригиналОтветить0

TheProphetOfToast

· 11ч назад

Эмоциональные ритмические встроенные теги, наконец-то не нужно слушать, как робот зачитывает текст

Посмотреть ОригиналОтветить0

GateUser-b665e41c

· 12ч назад

Интеграция системы автомобиля Tesla, какова задержка голосового взаимодействия при вождении в миллисекундах?

Посмотреть ОригиналОтветить0

PunkRiskMgr

· 12ч назад

Служба поддержки Starlink уже использует это, а распознавание акцентов в сельских районах стало богатым источником данных для обучения

Посмотреть ОригиналОтветить0

ToBeHonest,You'llLose

· 12ч назад

От масштабных моделей до голоса — многомодальная война официально переходит во вторую половину

Посмотреть ОригиналОтветить0

HashbrownHero

· 12ч назад

Массовая транскрипция этой цены, команда субтитров и ведущие подкастов, вероятно, перейдут коллективно

Посмотреть ОригиналОтветить0

GateUser-bee672a5

· 12ч назад

Ждать, пока открытое сообщество воссоздаст WER, бенчмарк xAI, обычно сначала ставит под сомнение

Посмотреть ОригиналОтветить0

TwoFactorZen

· 12ч назад

REST + WebSocket двойной режим, максимально удобен для разработчиков

Посмотреть ОригиналОтветить0

VintageKeychain

· 12ч назад

Опыт Grok Voice, поданный одним и тем же аудиостэком, должен быть синхронно обновлён.

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.02M Популярность
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
832.46K Популярность
#
IsraelStrikesIranBTCPlunges
49.81K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Популярность
#
MicronMarketCapBreaks1Trillion
45.14K Популярность

Закреплено

Карта сайта

xAI открывает API для аудио Grok STT и TTS, общий процент ошибок в распознавании речи снижен до 6,9%

Популярные темы

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закреплено