Любите звук Tesla? xAI официально запускает API голосового взаимодействия Grok, стоимость TTS — 4,2 доллара за миллион символов, точность распознавания превосходит ElevenLabs

robot
Генерация тезисов в процессе

xAI официально запустила в этом году отдельные API для преобразования речи в текст (STT) и текста в речь (TTS), которые уже успешно работают в Grok Voice, автомобилях Tesla и системе поддержки Starlink. Цены на STT составляют 0,10 долларов за час пакетной обработки и 0,20 долларов за час потоковой обработки, поддерживаются более 25 языков.
(Предыстория: бета-версия Grok 4.3 доступна для подписчиков Heavy! Маск: первая обучающая версия флагманского продукта завершится через 5 дней)
(Дополнительная информация: Google запустила Gemini 3.1 Flash TTS: аудиотеги делают озвучивание AI более живым, поддержка 70+ языков, бесплатный опыт в Google AI Studio)

Содержание статьи

Переключить

  • STT: временные метки на уровне слов + различение говорящих, пакетная обработка всего за 0,1 доллара в час
  • TTS: 5 стилей голоса + голосовые теги, 4,2 доллара за миллион символов
  • Та же технология уже управляет Tesla и Starlink

Та же система, которая позволяет автомобилям Tesla говорить и системе Starlink отвечать пользователям голосом, теперь доступна через API. 17 числа xAI официально объявила о запуске отдельных API для преобразования речи в текст (STT) и текста в речь (TTS), позволяя внешним разработчикам напрямую использовать эту голосовую инфраструктуру, уже внедрённую в продукты xAI.

STT: временные метки на уровне слов + различение говорящих, пакетная обработка всего за 0,1 доллара в час

Согласно официальным заявлениям, API Grok STT предлагает два режима доступа: пакетную обработку через REST API и потоковую обработку с низкой задержкой через WebSocket API. В ценовой политике, пакетная обработка стоит 0,10 долларов за час, потоковая — 0,20 долларов за час, что, по словам компании, значительно выгоднее по сравнению с основными конкурентами, такими как ElevenLabs и Deepgram.

Функционально, Grok STT поддерживает более 25 языков, обладает временными метками на уровне слов, различением говорящих (speaker diarization), а также многоканальным аудио и интеллектуальной нормализацией обратного текста. Подходит для корпоративных сценариев, таких как транскрипция совещаний, юридические и медицинские записи, журналы поддержки клиентов и другие задачи, требующие высокой точности.

В тестах на распознавание实体, Grok STT показала преимущества. При распознавании имен, аккаунтов, дат и других ключевых实体 в телефонных звонках, ошибка Grok STT составила 5,0%, тогда как у ElevenLabs — 12,0%, у Deepgram — 13,5%, у AssemblyAI — 21,3%.

TTS: 5 стилей голоса + голосовые теги, 4,2 доллара за миллион символов

API Grok TTS предлагает пять различных стилей голоса: Ara (женский, тёплый и дружелюбный), Eve (женский, живой и активный), Leo (мужской, авторитетный и мощный), Rex (мужской, уверенный и ясный), Sal (нейтральный, плавный и сбалансированный).

API автоматически определяет язык входных данных, поддерживает более 20 языков по умолчанию и управляется с помощью языковых кодов BCP-47 для произношения.

Форматы аудио вывода включают MP3, WAV, PCM (Linear16), G.711 μ-law и G.711 A-law, последние два — стандартные форматы кодирования для телефонных систем, что демонстрирует интеграцию xAI с телекоммуникационной индустрией.

Особенность TTS API — «голосовые теги»: разработчики могут вставлять команды прямо в текст, чтобы точно управлять паузами, смехом, шепотом, интонацией, скоростью и высотой голоса, делая синтез более естественным. Цена — 4,20 доллара за миллион символов.

Та же технология уже управляет Tesla и Starlink

xAI подчёркивает, что обе API основаны не на новых разработках, а на той же инфраструктуре, которая уже используется в Grok Voice, голосовом взаимодействии в автомобилях Tesla и системе поддержки клиентов Starlink.

Эта инфраструктура впервые была представлена в конце 2025 года в виде API Grok Voice Agent, обеспечивающего возможность мгновенного голосового диалога, и заняла первое место в тесте Big Bench Audio, показывая время отклика менее 1 секунды — примерно в 5 раз быстрее ближайших конкурентов.

Запуск отдельных точек API для STT и TTS фактически разбивает эту интегрированную голосовую систему на отдельные компоненты, позволяя разработчикам собирать их по мере необходимости.

XAI-10,42%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить