Whisper e Gemini 3 Pro ficam quase 30% atrás em ambientes acústicos complexos? Este Qwen3-ASR 1.7B base Mega-ASR tem algo de especial, problemas de alucinação e perda de palavras finalmente estão sendo levados a sério.

Ver original
MeNews
Universidade Nacional de Cingapura e Nanyang Technological University lançam Mega-ASR de código aberto, reduzindo alucinações e omissões de palavras em reconhecimento de fala sob ruído extremo
ME News Notícias, 22 de maio (UTC+8), de acordo com o monitoramento do Beating, equipes da Universidade Nacional de Cingapura, Universidade Tecnológica de Nanyang e Laboratório de Inteligência Artificial de Xangai uniram esforços para abrir o primeiro modelo de reconhecimento de fala robusto para todos os cenários, Mega-ASR, com o objetivo de resolver problemas como alucinações, omissão de palavras e saídas em branco enfrentados em ambientes reais. O modelo é alimentado pelo Qwen3-ASR 1.7B como base, e em ambientes acústicos extremamente complexos, alcança uma melhoria de desempenho de até 30% em relação a modelos como Whisper, Gemini 3 Pro e Seed-ASR. Atualmente, o projeto já está open source no GitHub, com todo o código e pesos do modelo publicados sob a licença Apache-2.0. A equipe de pesquisa construiu um conjunto de dados contendo 2,4 milhões de amostras, com um total de 11 mil horas de duração.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado