Xiaomi lança open source OmniVoice: um modelo de clonagem de voz que cobre 646 idiomas

robot
Geração de resumo em curso

Notícias do Coinjie.com, o laboratório de IA da Xiaomi lançou uma nova geração da equipe Kaldi, open source do OmniVoice, um modelo de TTS (texto para fala) de clonagem de voz zero-shot que suporta 646 idiomas.
Este modelo consegue clonar a tonalidade usando apenas alguns segundos de áudio de referência, suportando conversão entre idiomas.
O código, pesos e dados de treino estão totalmente abertos, sob licença Apache-2.0.
A arquitetura do OmniVoice segue uma abordagem minimalista, com apenas um Transformer bidirecional, mapeando diretamente do texto para tokens acústicos de múltiplos códigos, sem necessidade de pipeline em duas fases.
Os dados de treino vêm de 50 conjuntos de dados de voz de código aberto, filtrados por redução de ruído e qualidade, totalizando 580 mil horas.
Em testes em 24 idiomas, o modelo superou várias soluções comerciais em similaridade de voz e inteligibilidade, e em 102 idiomas, a inteligibilidade foi próxima ou até superior à gravação real.
Além da clonagem de voz, o modelo também suporta personalização de tonalidade por descrição textual, redução automática de ruído em áudio de referência com ruído, entre outras funções.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar