Tongyi lança Fun-ASR1.5, com foco em reconhecimento de dialetos

robot
Geração do resumo em andamento
ME News Notícias, 20 de abril (UTC+8), de acordo com o monitoramento do Beating, o laboratório Tongyi lançou em 20 de abril o modelo de reconhecimento de voz Fun-ASR1.5, e já disponibilizou a API na Alibaba Cloud Bailing, além de abrir uma experiência online na comunidade Modao. A versão oficial afirma que esta versão cobre 30 idiomas com um único modelo, incluindo os sete principais dialetos do mandarim e mais de 20 sotaques regionais, não mais separando modelos por dialeto.
Os testes internos fornecidos pelo Tongyi mostram que a taxa de erro de caracteres em cenários típicos de dialetos caiu 56,2% em relação à versão anterior, com 5 dialetos tendo uma precisão superior a 90% e 15 dialetos acima de 80%.
O reconhecimento de poesia clássica também foi destacado com otimizações específicas, e a precisão interna de nível de caractere fornecida oficialmente é de 97%.
Todos esses números vêm de testes internos do Tongyi, não de benchmarks de terceiros.
O dialeto de cauda longa, considerado o mais difícil de tratar na reconhecimento de voz em chinês, começou a ser integrado ao mesmo conjunto de capacidades prontas para uso comercial.
Para cenários como transmissões educativas ao vivo, linhas diretas de governo local e organização de entrevistas, os integradores não precisarão mais separar múltiplas cadeias de reconhecimento por sotaque regional, tornando a implantação mais simples.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado