Grok голосовой пакет полностью интегрирован в API, Tesla и Starlink уже давно используют его, данные самотестирования WER выглядят хорошо, но подождем стороннюю проверку.

Посмотреть Оригинал
MeNews
xAI открывает API для аудио Grok STT и TTS, общий процент ошибок в распознавании речи (STT) снижен до 6,9%
МЕ Новости сообщают, что xAI выпустила два независимых аудио API: Grok STT и Grok TTS, основанные на одной аудио-стеке, поддерживающие Grok Voice, автомобильную систему Tesla и службу поддержки Starlink. STT предоставляет REST-пакетную транскрипцию и потоковую передачу в реальном времени через WebSocket, с временными метками на уровне слов, разделением говорящих, многоканальностью и обратной нормализацией текста, охватывая более 25 языков; TTS поддерживает встроенные теги для эмоций и ритма. Также опубликовано сравнение WER, где Grok лидирует в различных сценариях, однако третьи стороны еще не проводили независимые тесты. Цены: пакетная обработка STT — 0,10 доллара США за час, потоковая — 0,20 доллара за час, TTS — 4,20 доллара за миллион символов.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено