Whisper e Gemini 3 Pro ficam quase 30% atrás em ambientes acústicos complexos? Este Qwen3-ASR 1.7B base Mega-ASR tem algo de especial, problemas de alucinação e omissão de palavras finalmente estão a ser tratados de forma séria.

Ver original
MeNews
Universidade Nacional de Singapura e Nanyang Technological University lançam Mega-ASR de código aberto, reduzindo alucinações e omissões de palavras em reconhecimento de fala sob ruído extremo
ME News Notícias, 22 de maio (UTC+8), de acordo com o monitoramento do Beating, equipes da Universidade Nacional de Cingapura, Universidade de Tecnologia de Nanyang e Laboratório de Inteligência Artificial de Xangai uniram-se para abrir o primeiro modelo de reconhecimento de fala robusto para todos os cenários, Mega-ASR, com o objetivo de resolver problemas como alucinações, omissão de palavras e saídas em branco enfrentados em ambientes reais.
O modelo é alimentado pelo Qwen3-ASR 1.7B na sua base, e em ambientes acústicos extremamente complexos, alcança até 30% de melhoria de desempenho em relação a modelos como Whisper, Gemini 3 Pro e Seed-ASR.
Atualmente, o projeto já está open source no GitHub, com todo o código e pesos do modelo publicados sob a licença Apache-2.0.
A equipe de pesquisa construiu um conjunto contendo 2,4 milhões de amostras, com uma duração total de 11.000 horas.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado