Grok голосовий пакет у API, автосистема Tesla та служба підтримки Starlink вже давно використовують, дані самостійного тесту WER виглядають гарно, але чекатимемо повторного тестування сторонніми.

Переглянути оригінал
MeNews
xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%
Медійні новини повідомляють, що xAI запустила дві окремі аудіо API: Grok STT та Grok TTS, що походять з одного аудіо стеку, підтримують Grok Voice, автомобільну систему Tesla та обслуговування Starlink. STT пропонує пакетний транскрипт через REST та потокову обробку в реальному часі через WebSocket, з часовими мітками на рівні слова, розділенням мовців, багатоканальним режимом та нормалізацією тексту у зворотному порядку, охоплюючи понад 25 мов; TTS підтримує внутрішні теги для емоцій та ритму. Також опубліковано порівняння WER, де Grok лідирує у багатьох сценаріях, але третіх сторонніх повторних тестів ще немає. Ціни: пакетний STT — 0,10 долара США за годину, потоковий — 0,20 долара США за годину, TTS — 4,20 долара США за мільйон символів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено