Китайский сайт Coinjie сообщает, что ElevenLabs официально выпустила открытый исходный код Speech Engine Skill, предназначенный для быстрого интегрирования возможностей высокоточного, низколатентного голосового взаимодействия с ИИ-агентами и большими языковыми моделями.
Разработчикам достаточно выполнить команду npx skills add elevenlabs/skills, чтобы добавить голосовой движок в проект, без необходимости подключать несколько API.
Этот компонент построен на базе высокопроизводительного соединения websocket, при разговоре пользователя браузер захватывает аудио и потоково передает его в ElevenLabs, осуществляя в реальном времени преобразование речи в текст и отправляя его на сервер.
Сервер через большую языковую модель генерирует ответ, используя функцию SDK sendresponse(), чтобы вернуть его обратно, а ElevenLabs преобразует его в синтезированный голос для воспроизведения.
Для упрощения фронтенд-разработки ElevenLabs выпустила клиентские библиотеки /react и /client, благодаря которым фронтенд-страница требует лишь небольшого количества кода и может быстро запустить цифрового голосового помощника, используя безопасные сессионные сертификаты.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

11 Лайков

Награда
11
7
2
Поделиться

комментарий

Добавить комментарий

L2AlleyRunner

· 2ч назад

В будущем стоимость разработки AI-обслуживания клиентов и голосовых помощников значительно снизится

Посмотреть ОригиналОтветить0

NightAuditBuddy

· 2ч назад

sendresponse()这个API设计得挺直觉的

Ответить0

NonceNomad

· 2ч назад

Открытая экосистема набирает обороты, что выгодно для малых и средних команд

Посмотреть ОригиналОтветить0

MerkleGarden

· 2ч назад

Высокая точность + низкая задержка, сценарии реального времени для диалогов кардинально изменятся

Посмотреть ОригиналОтветить0

SlowerThanBlock

· 2ч назад

Речь в текст → LLM → синтез речи, эта цепочка замкнулась

Посмотреть ОригиналОтветить0

SeaSaltMarketMakingNotes

· 2ч назад

npx однокнопочная установка действительно удобна, наконец-то не нужно возиться с несколькими API

Посмотреть ОригиналОтветить0

UnderTheWisteriaBridge

· 2ч назад

ElevenLabs эта волна открытого исходного кода действительно полезна, порог входа для голосового взаимодействия сразу снизился вдвое

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.1M Популярность
#
IsraelStrikesIranBTCPlunges
50.14K Популярность
#
StockTradingChallengeUpTo17000U
135.08K Популярность
#
USLaunchesNewStrikesOnIranOilRebounds
9.32M Популярность
#
2gGoldEvery10Minutes
3.1M Популярность

Закреплено

Карта сайта

ElevenLabs открытый исходный код движка речи Skill, реализующий интеграцию низколатентного реального времени голосового диалога

Популярные темы

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USLaunchesNewStrikesOnIranOilRebounds

2gGoldEvery10Minutes

Закреплено