Universidade Nacional de Singapura e Nanyang Technological University lançam Mega-ASR de código aberto, reduzindo alucinações e omissões de palavras em reconhecimento de fala sob ruído extremo

Notícias ME, 22 de maio (UTC+8), de acordo com o monitoramento do Beating, equipes da Universidade Nacional de Cingapura, Universidade Nanyang Technological e Laboratório de Inteligência Artificial de Xangai uniram-se para abrir o primeiro modelo de reconhecimento de fala robusto para todos os cenários, Mega-ASR, com o objetivo de resolver problemas como alucinações, omissão de palavras e saídas em branco enfrentados em ambientes reais.
O modelo é impulsionado pelo Qwen3-ASR 1.7B, e, em ambientes acústicos extremamente complexos, alcança uma melhoria de desempenho de quase 30% em relação a modelos como Whisper, Gemini 3 Pro e Seed-ASR.
Atualmente, o projeto já está open source no GitHub, com todo o código e pesos do modelo publicados sob a licença Apache-2.0.
A equipe de pesquisa construiu um conjunto de dados de treinamento Voices-in-the-wild-2M, contendo 2,4 milhões de amostras, com duração total de 11 mil horas.
O conjunto de dados foi gerado por uma linha de produção de simulação baseada em características físicas do espectro, sintetizando sete efeitos acústicos atômicos: reverberação, eco, ruído aditivo, campo distante, perda de frequência, limitação de banda e distorção de corte, além de derivar 54 cenários ambientais compostos.
Para garantir a estabilidade do treinamento, após filtrar amostras com uma taxa de erro de palavra superior a 70%, a equipe ajustou a distribuição de dificuldade do conjunto de dados por meio de uma verificação de razoabilidade física.
No mecanismo de treinamento, o Mega-ASR introduz o ajuste fino supervisionado progressivo de áudio para semântica A2S-SFT, alinhando as características de áudio em fases para melhorar a capacidade do modelo de recuperar semântica sob interferências severas.
Na fase de otimização de estratégia, o modelo utiliza uma estratégia de otimização de taxa de erro de palavra de duplo grau de granularidade com uma política de reforço DG-WGPO.
Quando a qualidade do áudio de entrada é boa e a taxa de erro de palavra é baixa, o sistema foca na reconstrução de detalhes acústicos a nível de caractere.
Se o áudio estiver gravemente distorcido e a taxa de erro de palavra for alta, o mecanismo de decisão muda para uma reconstrução semântica a nível de frase, reduzindo significativamente as alucinações e omissões comuns em grandes modelos.
Para lidar com uma possível ligeira queda na taxa de reconhecimento em áudio limpo, o Mega-ASR possui um mecanismo de roteamento dinâmico.
O decisor de roteamento avalia automaticamente a qualidade do áudio atual e decide inteligentemente se deve montar pesos de ajuste fino LoRA, garantindo que o modelo produza resultados ótimos tanto em ambientes limpos quanto ruidosos.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 6
  • 3
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
CheckingEthInTheElevator
· 1h atrás
Qwen3-ASR 1.7B de base, o ecossistema da Alibaba mais uma vez saiu vencedor
Ver originalResponder0
NeonIceMelt
· 5h atrás
O que significa um ambiente acústico extremamente complexo? Metrô + bar + obra?
Ver originalResponder0
GateUser-1bc81bb2
· 5h atrás
Equipa doméstica liderando, esta rodada conta como um modelo nacional a sair para o exterior ou uma cooperação internacional
Ver originalResponder0
MistBlueLily
· 6h atrás
Seed-ASR também foi puxado para ser criticado, ByteDance: ?
Ver originalResponder0
ThereIsAChainInTheReflection.
· 6h atrás
A robustez em ambientes reais é a verdadeira prioridade, por mais impressionantes que sejam os indicadores de laboratório, eles desmoronam na prática.
Ver originalResponder0
MevInRetrospect
· 6h atrás
2,4 milhões de amostras, 11 mil horas, engenharia de dados parece uma dor de cabeça
Ver originalResponder0
  • Fixado