Grok STT 的词级时间戳和说话人分离对播客剪辑党是刚需,但 WER 数据自说自话,等一手第三方复测。

GROK-5,89%
STT-4,85%
MeNews
xAI открывает API для Grok STT и TTS аудио, общий процент ошибок в распознавании речи снижен до 6.9%
МЕ Новости сообщают, что xAI выпустила два независимых аудио API: Grok STT и Grok TTS, основанные на одной аудио платформе, поддерживающие Grok Voice, автомобильную систему Tesla и службу поддержки Starlink. STT предоставляет REST-пакетную транскрипцию и потоковую передачу через WebSocket, с временными метками на уровне слов, разделением говорящих, многоканальностью и обратной нормализацией текста, охватывая более 25 языков; TTS поддерживает встроенные теги для эмоций и ритма. Также опубликовано сравнение WER, где Grok лидирует в различных сценариях, третьи стороны пока не проводили повторные тесты. Цены: пакетная обработка STT — 0,10 доллара США за час, потоковая — 0,20 доллара США за час, TTS — 4,20 доллара за миллион символов.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 1
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-dd0c6b87
· 9ч назад
Это совсем не одно и то же, не вводите людей в заблуждение
Посмотреть ОригиналОтветить0
  • Закреплено