xAI випустила API для голосового перетворення в текст і тексту в голос Грок

robot
Генерація анотацій у процесі
ME Новини повідомляють, 18 квітня (UTC+8), що xAI нещодавно офіційно запустила дві окремі аудіо API: Grok для голосового перетворення в текст (STT) та Grok для перетворення тексту в голос (TTS).
Grok STT забезпечує високоточну, з низькою затримкою транскрипцію, підтримує пакетну обробку через REST API та потокову обробку в реальному часі через WebSocket API, а також має функції часових міток на рівні слів, розділення мовців, підтримки багатоканальності та інтелектуальної нормалізації тексту.
У статті зазначається, що у бенчмарках у сферах телефонних дзвінків, конференцій, відео/подкастів її показники помилок слів були кращими за провідні комерційні моделі, такі як ElevenLabs, Deepgram та AssemblyAI.
Цей сервіс підтримує понад 25 мов, ціна за пакетну обробку становить 0,10 долара США за годину, а за потокову обробку — 0,20 долара за годину.
Grok TTS може швидко генерувати природний та виразний голос, підтримує тонке керування за допомогою простих голосових тегів, ціна становить 4,20 долара за мільйон символів.
Обидва API базуються на однаковій технологічній платформі, яка використовується для забезпечення голосу Grok, підтримки автомобілів Tesla та клієнтської підтримки Starlink.
(Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GateUser-99725296
· 3год тому
Чи зможе ця ціна згорнутися, подивіться, як Azure і AWS реагують
Переглянути оригіналвідповісти на0
0xLateBreakfast
· 3год тому
Оптові та потокові ціни відрізняються вдвічі, бізнесу потрібно добре порахувати свої витрати
Переглянути оригіналвідповісти на0
RiskOffRina
· 3год тому
Підтримка багатоканального звуку надзвичайно важлива для транскрипції зустрічей, нарешті не потрібно вирівнювати самостійно
Переглянути оригіналвідповісти на0
WalletHealthInspector
· 3год тому
Grok Voice використовує саме ці дві API, нарешті виділили їх.
Переглянути оригіналвідповісти на0
MosaicBowtieRealm
· 3год тому
Які саме параметри можна контролювати за допомогою міток тонкої настройки: швидкість мови, інтонація чи емоції?
Переглянути оригіналвідповісти на0
  • Закріплено