ElevenLabs开源Speech Engine Skill,实现低延迟实时语音对话集成

币界网消息,ElevenLabs正式开源Speech Engine Skill,旨在让AI智能体与大语言模型快速集成高保真、低延迟的语音交互能力。开发者只需运行npx skills add elevenlabs/skills命令,即可将语音引擎添加到项目中,无需对接多套API。该组件基于高性能websocket连接构建,用户说话时,浏览器捕获音频并流式传输给ElevenLabs,实时完成语音转文字并推送给服务器。服务器通过大语言模型生成响应,利用SDK的sendresponse()函数将响应传回,ElevenLabs将其转换为合成语音播放。为简化前端开发,ElevenLabs推出/react与/client客户端库,前端页面仅需少量代码,配合安全会话凭证即可快速拉起数字语音助手。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
L2 Alley Runner
· 2小时前
以后AI客服、语音助手开发成本大降
回复0
Night Audit Buddy
· 2小时前
sendresponse()这个API设计得挺直觉的
回复0
Nonce Nomad
· 2小时前
开源生态卷起来,利好中小团队
回复0
Merkle Garden
· 2小时前
高保真+低延迟,实时对话场景要变天了
回复0
SlowerThanBlock
· 2小时前
语音转文字→LLM→语音合成,这链路闭环了
回复0
海盐做市笔记
· 2小时前
npx一键安装确实香,终于不用折腾多套API了
回复0
紫藤桥下
· 2小时前
ElevenLabs这波开源挺实在的,语音交互门槛直接砍半
回复0