ElevenLabs motor de fala de código aberto Skill, implementação de integração de diálogo de voz em tempo real com baixa latência
Notícias do site Coinjie, a ElevenLabs lançou oficialmente o Speech Engine Skill de código aberto, com o objetivo de permitir que agentes de IA e grandes modelos de linguagem integrem rapidamente capacidades de interação por voz de alta fidelidade e baixa latência.
Os desenvolvedores só precisam executar o comando npx skills add elevenlabs/skills para adicionar o motor de voz ao projeto, sem precisar conectar múltiplas APIs.
Este componente é construído com uma conexão websocket de alto desempenho, onde, ao falar, o navegador captura o áudio e o transmite em fluxo para a ElevenLabs, realizando em tempo real a conversão de voz em texto e enviando ao servidor.
O servidor gera uma resposta usando um grande modelo de linguagem, e utiliza a função sendresponse() do SDK para enviar a resposta de volta, que a ElevenLabs converte em voz sintetizada para reprodução.
Para simplificar o desenvolvimento frontend, a ElevenLabs lançou/react com