xAI запускає API для мови Grok, пропонуючи цінову перевагу над конкурентами на 60%

Зах Андерсон

Apr 18, 2026 00:53

Elon Musk’s xAI випустила API для Grok Speech to Text і Text to Speech за $0.10/годину, заявляючи про найнижчі рівні помилок у порівнянні з корпоративними стандартами транскрипції.

Elon Musk’s xAI випустила два окремі аудіо API 17 квітня, позиціонуючи технологію мовлення Grok як прямого конкурента ElevenLabs, Deepgram і AssemblyAI за агресивними цінами.

API Grok Speech to Text коштує $0.10 за годину для пакетної обробки та $0.20 за годину для потокової обробки у реальному часі. Text to Speech коштує $4.20 за мільйон символів. Обидва використовують ту саму інфраструктуру, що й Tesla та підтримка клієнтів Starlink.

Заяви щодо бенчмарків, які варто перевірити

Опубліковані xAI показники помилок у словах розповідають цікаву історію. У розпізнаванні сутностей телефонних дзвінків — імена, номери рахунків, дати — Grok STT заявляє про 5.0% помилок проти ElevenLabs з 12.0%, Deepgram з 13.5% і AssemblyAI з 21.3%. Це значний розрив, якщо він підтвердиться у виробництві.

Компанія продемонструвала це на складному тесті: транскрибуванні валлійських імен, таких як “Anghared Llewelyn Bowen” і “Oisin MacGiolla Phadraig”, поряд із деталями іпотеки. Grok зробив це без помилок. Конкуруючі моделі мали труднощі з вимовою та форматуванням дат.

Транскрипція відео та подкастів показує більш тісну конкуренцію — Grok і ElevenLabs зійшлися на рівні 2.4% помилок, тоді як Deepgram і AssemblyAI трохи відстали з 3.0% і 3.2% відповідно.

Технічні функції для розробників

Крім базової транскрипції, xAI додала функції, які дійсно потрібні корпоративним клієнтам: часові позначки на рівні слів, діаризація мовця по кількох аудіоканалах і підтримка понад 25 мов з безшовним перемиканням.

Функція Inverse Text Normalization автоматично перетворює вимовлені числа, дати та валюти у правильний формат. “Four one four five five five one two three four” стає номером телефону. “Six ninety-nine” — $6.99. Маленька деталь, але вона усуває головний біль післяобробки.

Text to Speech включає внутрішні теги для контролю просодії — шепіт, сміх, зітхання, наголос, регулювання темпу. Розробники можуть додавати емоційний нюанс без складних аудіо-маркувань.

Стратегічний контекст

Цей запуск слідує за придбанням xAI компанії X Corp у березні 2025 року і відбувається на тлі розширення партнерських відносин у галузі інфраструктури. За два дні до анонсу API з’явилися повідомлення, що xAI планує постачати обчислювальні ресурси Cursor, стартапу з штучним інтелектом для кодування.

Колосус — суперкомп’ютер, який працює з грудня 2024 року, забезпечує бекенд-можливості. Здається, xAI монетизує цю потужність у кількох вертикалях — корпоративний ШІ, інструменти для розробників і тепер голосові API.

Для розробників, які створюють голосових агентів або інструменти транскрипції, ціна суттєво нижча за встановлених гравців. Чи витримають заявлену точність Grok у реальних масштабах — залишається відкритим питанням. Документація та обмеження швидкості доступні через API-консоль xAI для тих, хто готовий протестувати.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити