Notícias ME, 22 de maio (UTC+8), de acordo com o monitoramento do Beating, equipes da Universidade Nacional de Cingapura, Universidade Nanyang Technological e Laboratório de Inteligência Artificial de Xangai uniram esforços para abrir o primeiro modelo de reconhecimento de fala robusto para todos os cenários, Mega-ASR, com o objetivo de resolver problemas como alucinações, omissão de palavras e saídas em branco enfrentados em ambientes reais.
O modelo é alimentado pelo Qwen3-ASR 1.7B como base, e alcançou uma melhoria de desempenho de até 30% em ambientes acústicos extremamente complexos em comparação com modelos como Whisper, Gemini 3 Pro e Seed-ASR.
Atualmente, o projeto já está open source no GitHub, com todo o código e pesos do modelo publicados sob a licença Apache-2.0.
A equipe de pesquisa construiu um conjunto de dados de treinamento Voices-in-the-wild-2M, contendo 2,4 milhões de amostras, com um total de 11 mil horas de duração.
O conjunto de dados foi gerado por uma linha de produção de simulação baseada em características físicas do espectro, sintetizando sete efeitos acústicos atômicos: reverberação, eco, ruído aditivo, campo distante, perda de frequência, limitação de banda e distorção de corte, além de derivar 54 cenários ambientais compostos.
Para garantir a estabilidade do treinamento, a equipe filtrou amostras com uma taxa de erro de palavra superior a 70% e ajustou a distribuição de dificuldade do conjunto de dados por meio de uma verificação de razoabilidade física.
No mecanismo de treinamento, o Mega-ASR introduz o ajuste fino supervisionado progressivo de áudio para semântica A2S-SFT, alinhando as características de áudio em fases para melhorar a capacidade do modelo de recuperar o significado sob interferências severas.
Na fase de otimização de estratégia, o modelo utiliza uma estratégia de otimização de taxa de erro de palavra de duplo grau de granularidade, DG-WGPO, com reforço por aprendizado por reforço.
Quando a qualidade do áudio de entrada é boa e a taxa de erro de palavra é baixa, o sistema foca na reconstrução de detalhes acústicos a nível de caractere.
Se o áudio estiver gravemente distorcido e a taxa de erro de palavra for alta, o mecanismo de decisão passa a focar na reconstrução semântica a nível de sentença, reduzindo significativamente as alucinações e omissões comuns em grandes modelos.
Para lidar com uma possível leve queda na taxa de reconhecimento em áudio limpo, o Mega-ASR possui um mecanismo de roteamento dinâmico.
O decisor de roteamento avalia automaticamente a qualidade do áudio atual e decide inteligentemente se deve montar pesos de ajuste fino LoRA, garantindo que o modelo possa fornecer resultados ótimos tanto em ambientes limpos quanto ruidosos.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

10 Curtidas

Recompensa
10
6
3
Compartilhar

Comentário

Adicionar um comentário

CheckingEthInTheElevator

· 4h atrás

Qwen3-ASR 1.7B como base, o ecossistema da Alibaba venceu novamente

Ver originalResponder0

NeonIceMelt

· 9h atrás

O que significa um ambiente acústico extremamente complexo? Metrô + bar + canteiro de obras?

Ver originalResponder0

GateUser-1bc81bb2

· 9h atrás

Equipe doméstica liderando, essa rodada é considerada uma modelagem nacional indo para o exterior ou cooperação internacional

Ver originalResponder0

MistBlueLily

· 9h atrás

Seed-ASR também foi puxado para ser criticado, ByteDance: ?

Ver originalResponder0

ThereIsAChainInTheReflection.

· 9h atrás

A robustez em ambientes reais é o que realmente importa, indicadores de laboratório podem parecer bons, mas se não forem aplicáveis, falham na prática

Ver originalResponder0

MevInRetrospect

· 9h atrás

2,4 milhões de amostras, 11 mil horas, engenharia de dados parece uma dor de cabeça

Ver originalResponder0