Universidade Nacional de Cingapura e Nanyang Technological University lançam Mega-ASR de código aberto, reduzindo alucinações e omissões de palavras em reconhecimento de fala sob ruído extremo

Notícias ME, 22 de maio (UTC+8), de acordo com o monitoramento do Beating, equipes da Universidade Nacional de Cingapura, Universidade Nanyang Technological e Laboratório de Inteligência Artificial de Xangai uniram esforços para abrir o primeiro modelo de reconhecimento de fala robusto para todos os cenários, Mega-ASR, com o objetivo de resolver problemas como alucinações, omissão de palavras e saídas em branco enfrentados em ambientes reais.
O modelo é alimentado pelo Qwen3-ASR 1.7B como base, e alcançou uma melhoria de desempenho de até 30% em ambientes acústicos extremamente complexos em comparação com modelos como Whisper, Gemini 3 Pro e Seed-ASR.
Atualmente, o projeto já está open source no GitHub, com todo o código e pesos do modelo publicados sob a licença Apache-2.0.
A equipe de pesquisa construiu um conjunto de dados de treinamento Voices-in-the-wild-2M, contendo 2,4 milhões de amostras, com um total de 11 mil horas de duração.
O conjunto de dados foi gerado por uma linha de produção de simulação baseada em características físicas do espectro, sintetizando sete efeitos acústicos atômicos: reverberação, eco, ruído aditivo, campo distante, perda de frequência, limitação de banda e distorção de corte, além de derivar 54 cenários ambientais compostos.
Para garantir a estabilidade do treinamento, a equipe filtrou amostras com uma taxa de erro de palavra superior a 70% e ajustou a distribuição de dificuldade do conjunto de dados por meio de uma verificação de razoabilidade física.
No mecanismo de treinamento, o Mega-ASR introduz o ajuste fino supervisionado progressivo de áudio para semântica A2S-SFT, alinhando as características de áudio em fases para melhorar a capacidade do modelo de recuperar o significado sob interferências severas.
Na fase de otimização de estratégia, o modelo utiliza uma estratégia de otimização de taxa de erro de palavra de duplo grau de granularidade, DG-WGPO, com reforço por aprendizado por reforço.
Quando a qualidade do áudio de entrada é boa e a taxa de erro de palavra é baixa, o sistema foca na reconstrução de detalhes acústicos a nível de caractere.
Se o áudio estiver gravemente distorcido e a taxa de erro de palavra for alta, o mecanismo de decisão passa a focar na reconstrução semântica a nível de sentença, reduzindo significativamente as alucinações e omissões comuns em grandes modelos.
Para lidar com uma possível leve queda na taxa de reconhecimento em áudio limpo, o Mega-ASR possui um mecanismo de roteamento dinâmico.
O decisor de roteamento avalia automaticamente a qualidade do áudio atual e decide inteligentemente se deve montar pesos de ajuste fino LoRA, garantindo que o modelo possa fornecer resultados ótimos tanto em ambientes limpos quanto ruidosos.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 6
  • 3
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
CheckingEthInTheElevator
· 4h atrás
Qwen3-ASR 1.7B como base, o ecossistema da Alibaba venceu novamente
Ver originalResponder0
NeonIceMelt
· 9h atrás
O que significa um ambiente acústico extremamente complexo? Metrô + bar + canteiro de obras?
Ver originalResponder0
GateUser-1bc81bb2
· 9h atrás
Equipe doméstica liderando, essa rodada é considerada uma modelagem nacional indo para o exterior ou cooperação internacional
Ver originalResponder0
MistBlueLily
· 9h atrás
Seed-ASR também foi puxado para ser criticado, ByteDance: ?
Ver originalResponder0
ThereIsAChainInTheReflection.
· 9h atrás
A robustez em ambientes reais é o que realmente importa, indicadores de laboratório podem parecer bons, mas se não forem aplicáveis, falham na prática
Ver originalResponder0
MevInRetrospect
· 9h atrás
2,4 milhões de amostras, 11 mil horas, engenharia de dados parece uma dor de cabeça
Ver originalResponder0
  • Fixado