xAI запускает API для речи Grok, предлагая цены на 60% ниже конкурентов

Зач Адерсон

18 апр, 2026 00:53

Elon Musk’s xAI выпускает API Grok Speech to Text и Text to Speech по цене $0.10/час, заявляя о самых низких ошибках среди корпоративных стандартов транскрипции.

Elon Musk’s xAI выпустила два самостоятельных аудио API 17 апреля, позиционируя технологию речи Grok как прямого конкурента ElevenLabs, Deepgram и AssemblyAI по агрессивным ценам.

API Grok Speech to Text работает за $0.10 в час для пакетной обработки и $0.20 в час для потоковой передачи в реальном времени. Text to Speech стоит $4.20 за миллион символов. Оба используют ту же инфраструктуру, что и автомобили Tesla и служба поддержки Starlink.

Заявления о бенчмарках, заслуживающие внимания

Опубликованные показатели ошибок слов xAI рассказывают интересную историю. В распознавании сущностей телефонных звонков — таких как имена, номера счетов, даты — Grok STT заявляет о 5,0% ошибках против 12,0% у ElevenLabs, 13,5% у Deepgram и 21,3% у AssemblyAI. Это значительный разрыв, если он подтвердится в реальных условиях.

Компания продемонстрировала это на сложном тесте: транскрибировании валлийских имен, таких как «Anghared Llewelyn Bowen» и «Oisin MacGiolla Phadraig», а также данных по ипотеке. Grok справился без ошибок. Конкурирующие модели ошибались в произношениях и форматировании дат.

Транскрипция видео и подкастов показывает более плотную конкуренцию — Grok и ElevenLabs показали одинаковый уровень ошибок 2,4%, а Deepgram и AssemblyAI немного отстали с 3,0% и 3,2% соответственно.

Технические функции для разработчиков

Помимо базовой транскрипции, xAI внедрила функции, которые действительно нужны корпоративным клиентам: временные метки на уровне слов, диаризация говорящих по нескольким аудиоканалам и поддержка более 25 языков с плавным переключением.

Функция обратной нормализации текста автоматически преобразует произнесённые числа, даты и валюты в правильные форматы. «Four one four five five five one two three four» превращается в номер телефона. «Six ninety-nine» — в $6.99. Маленькая деталь, но она избавляет от головной боли при постобработке.

Text to Speech включает встроенные теги для управления просодией — шепоты, смех, вздохи, акценты, регулировка темпа. Разработчики могут добавлять эмоциональные нюансы без сложных аудиоразметок.

Стратегический контекст

Этот запуск последовал за приобретением xAI компании X Corp в марте 2025 года и происходит на фоне расширения инфраструктурных партнерств компании. За два дня до объявления API появились сообщения о планах xAI поставлять вычислительные мощности Cursor, стартапу по разработке ИИ-кодирования.

Суперкомпьютер Colossus, работающий с декабря 2024 года, обеспечивает мощность для бэкенда. xAI, судя по всему, монетизирует эту мощность в нескольких вертикалях — корпоративный ИИ, инструменты для разработчиков и теперь голосовые API.

Для разработчиков, создающих голосовых агентов или инструменты транскрипции, цены значительно ниже конкурентов. Остается вопрос, выдержит ли точность Grok реальные масштабные внедрения. Документация и лимиты по скорости доступны через API-консоль xAI для тех, кто готов протестировать.

Источник изображения: Shutterstock

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить