xAI открывает API для аудио Grok STT и TTS, общий процент ошибок в распознавании речи снижен до 6,9%

robot
Генерация тезисов в процессе
ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, на платформе xAI запущены два независимых API для аудио: Grok Speech to Text и Grok Text to Speech. Оба основаны на одной аудиосистеме, поддерживающей Grok Voice, автомобильную систему Tesla и службу поддержки Starlink, и теперь доступны в виде отдельных конечных точек, что позволяет разработчикам напрямую интегрировать голосовых агентов, в реальном времени транскрибировать, создавать инструменты для инвалидов и подкасты. STT предлагает два режима. REST API предназначен для пакетной обработки больших аудиофайлов с ответом за миллисекунды; WebSocket API ориентирован на потоковую передачу в реальном времени. Включённые возможности включают временные метки на уровне слов, диаризацию говорящих, распознавание по каналам и обратную нормализацию текста, то есть автоматическую структуризацию чисел, дат, валют, произнесённых в разговоре. Поддержка более 25 языков, с возможностью бесшовного переключения в диалоге. xAI также опубликовала сравнительные показатели ошибок распознавания слов (WER, чем ниже, тем лучше): в целом сценарию Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; разрыв в распознавании сущностей телефонных звонков ещё больше, Grok 5.0%, у трёх других соответственно 12.0%, 13.5%, 21.3%. В сценариях встреч, видеоподкастов и телефонных звонков Grok немного превосходит конкурентов. Эти показатели были опубликованы xAI на основе собственных тестов, сторонние проверки отсутствуют. В ценовой политике, пакетная обработка STT стоит 0.10 доллара за час, потоковая — 0.20 доллара за час; TTS — 4.20 доллара за миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных тегов речи, например \[laugh\], \[sigh\], \[whisper\], \ (Источник: BlockBeats)
XAI-0,77%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
TwoFactorZen
· 1ч назад
WebSocket реальное время поток 0.2 доллара/час, братья, делающие субтитры для трансляций, можете посчитать расходы
Посмотреть ОригиналОтветить0
Frost-ColoredCubeCity
· 4ч назад
Пакетная цена в порядке, но стратегия ценообразования с потоковым удвоением явно заставляет вас идти на объем, это старый прием.
Посмотреть ОригиналОтветить0
GateUser-517aed04
· 4ч назад
Одна и та же стековая система подается и в автомобильную систему Tesla, и в службу поддержки Starlink, Муск умеет мастерски играть в этот замкнутый цикл.
Посмотреть ОригиналОтветить0
GateUser-b6d80ba0
· 5ч назад
WER сам себе говорит впереди, без сторонней повторной проверки сначала наблюдать, крипто старым быкам понятно
Посмотреть ОригиналОтветить0
  • Закреплено