ElevenLabs відкритий код движка мовлення, навичка, реалізує інтеграцію низької затримки для реального часу голосового діалогу

Звіт з CoinWorld, ElevenLabs офіційно відкрила вихідний код Speech Engine Skill, мета якого — швидко інтегрувати можливості високоточного, низьколатентного голосового взаємодії для штучного інтелекту та великих мовних моделей. Розробники можуть просто виконати команду npx skills add elevenlabs/skills, щоб додати голосовий двигун до проекту, без необхідності підключення до кількох API. Цей компонент побудований на основі високопродуктивного з’єднання websocket, коли користувач говорить, браузер захоплює аудіо та потоково передає його до ElevenLabs, у реальному часі перетворюючи голос у текст і надсилаючи його на сервер. Сервер генерує відповідь за допомогою великих мовних моделей, використовуючи функцію SDK sendresponse(), щоб повернути відповідь, а ElevenLabs перетворює її у синтезований голос для відтворення. Для спрощення фронтенд-розробки компанія випустила бібліотеки /react та /client, що дозволяють створювати цифрових голосових помічників на фронтенді з мінімальним кодом і безпечними сесіями.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
L2AlleyRunner
· 2год тому
У майбутньому витрати на розробку штучного інтелекту для обслуговування клієнтів та голосових помічників значно знизяться
Переглянути оригіналвідповісти на0
NightAuditBuddy
· 2год тому
sendresponse() цей API спроектований досить інтуїтивно
Переглянути оригіналвідповісти на0
NonceNomad
· 2год тому
Відкритий екосистемний рух, вигідний для малих і середніх команд
Переглянути оригіналвідповісти на0
MerkleGarden
· 2год тому
Висока точність + низька затримка, сценарії реального часу для спілкування змінюються
Переглянути оригіналвідповісти на0
SlowerThanBlock
· 2год тому
Перетворення голосу в текст → LLM → синтез голосу, цей ланцюг закінчено.
Переглянути оригіналвідповісти на0
SeaSaltMarketMakingNotes
· 2год тому
npx одностороння установка дійсно зручна, нарешті не потрібно возитися з кількома наборами API
Переглянути оригіналвідповісти на0
UnderTheWisteriaBridge
· 2год тому
ElevenLabs ця хвиля відкритого коду досить реальна, поріг голосової взаємодії безпосередньо зменшено наполовину
Переглянути оригіналвідповісти на0
  • Закріплено