xAI запустила API для голосового перетворення в текст і тексту в голос від Grok

robot
Генерація анотацій у процесі
ME Новини повідомляють, 18 квітня (UTC+8), що xAI нещодавно офіційно запустила дві окремі аудіо API: Grok для голосового перетворення в текст (STT) та Grok для перетворення тексту в голос (TTS).
Grok STT забезпечує високоточну, з низькою затримкою транскрипцію, підтримує пакетну обробку через REST API та потокову обробку в реальному часі через WebSocket API, а також має функції часових міток на рівні слів, розділення мовців, підтримки багатоканальності та інтелектуальної нормалізації тексту.
У статті зазначається, що у бенчмарках у сферах телефонних дзвінків, конференцій, відео/подкастів її показники помилок слів були кращими за провідні комерційні моделі, такі як ElevenLabs, Deepgram та AssemblyAI.
Цей сервіс підтримує понад 25 мов, ціна за пакетну обробку становить 0,10 долара США за годину, а за потокову обробку — 0,20 долара за годину.
Grok TTS може швидко генерувати природний та виразний голос, підтримує тонке керування за допомогою простих голосових тегів, ціна — 4,20 долара за мільйон символів.
Обидва API базуються на одній і тій же технологічній платформі, яка забезпечує роботу Grok Voice, автомобілів Tesla та підтримку клієнтів Starlink.
(Джерело: InFoQ)
XAI-2,15%
GROK3,4%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 3
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
RiskParachute
· 7год тому
Зачекайте, чи TTS може контролюватися за допомогою тегів для тонкої настройки? Чи можна налаштовувати емоційний настрій?
Переглянути оригіналвідповісти на0
BitByBitBenny
· 8год тому
Таймстампи на рівні слів + розділення за спікерами — це чудовий інструмент для створення протоколів зустрічей, хочу спробувати.
Переглянути оригіналвідповісти на0
FrictionlessFred
· 8год тому
Grok Voice、Тесла、Starlink використовують один набір технологій, Ілон Маск зрозумів цю екосистему замикаючого циклу
Переглянути оригіналвідповісти на0
GoldfishUnderTheIce
· 8год тому
Що таке технологія чорної науки з назвою "нормалізація оберненого тексту" — перетворення розмовної мови назад у стандартний текст?
Переглянути оригіналвідповісти на0
Don'tMessWithSlippage.
· 8год тому
25 мовами покриття, як справи з китайським результатом, хтось тестував?
Переглянути оригіналвідповісти на0
YieldBonsai
· 8год тому
4,20 доларів США/мільйон символів, ця цифра навмисна, чи не так?
Переглянути оригіналвідповісти на0
IOnlyTrustOn-ChainData.
· 8год тому
xAI ця хвиля ціноутворення на аудіо API досить жорстка, оплата по 0.1 долара за годину у великій кількості, здається, знищить багато постачальників ASR.
Переглянути оригіналвідповісти на0
  • Закріплено