ME News Notícias, 22 de maio (UTC+8), de acordo com o monitoramento do Beating, equipes da Universidade Nacional de Cingapura, Universidade de Tecnologia de Nanyang e Laboratório de Inteligência Artificial de Xangai uniram-se para abrir o primeiro modelo de reconhecimento de fala robusto para todos os cenários, Mega-ASR, com o objetivo de resolver problemas como alucinações, omissão de palavras e saídas em branco enfrentados em ambientes reais. O modelo é alimentado pelo Qwen3-ASR 1.7B na sua base, e em ambientes acústicos extremamente complexos, alcança até 30% de melhoria de desempenho em relação a modelos como Whisper, Gemini 3 Pro e Seed-ASR. Atualmente, o projeto já está open source no GitHub, com todo o código e pesos do modelo publicados sob a licença Apache-2.0. A equipe de pesquisa construiu um conjunto contendo 2,4 milhões de amostras, com uma duração total de 11.000 horas.

MeNews

2026-05-22 12:39:04

Notícias ME, 22 de maio (UTC+8), de acordo com o monitoramento do Beating, equipes da Universidade Nacional de Cingapura, Universidade Nanyang Technological e Laboratório de Inteligência Artificial de Xangai uniram-se para abrir o primeiro modelo de reconhecimento de fala robusto para todos os cenários, Mega-ASR, com o objetivo de resolver problemas como alucinações, omissão de palavras e saídas em branco enfrentados em ambientes reais.
O modelo é impulsionado pelo Qwen3-ASR 1.7B, e, em ambientes acústicos extremamente complexos, alcança uma melhoria de desempenho de quase 30% em relação a modelos como Whisper, Gemini 3 Pro e Seed-ASR.
Atualmente, o projeto já está open source no GitHub, com todo o código e pesos do modelo publicados sob a licença Apache-2.0.
A equipe de pesquisa construiu um conjunto de dados de treinamento Voices-in-the-wild-2M, contendo 2,4 milhões de amostras, com duração total de 11 mil horas.
O conjunto de dados foi gerado por uma linha de produção de simulação baseada em características físicas do espectro, sintetizando sete efeitos acústicos atômicos: reverberação, eco, ruído aditivo, campo distante, perda de frequência, limitação de banda e distorção de corte, além de derivar 54 cenários ambientais compostos.
Para garantir a estabilidade do treinamento, após filtrar amostras com uma taxa de erro de palavra superior a 70%, a equipe ajustou a distribuição de dificuldade do conjunto de dados por meio de uma verificação de razoabilidade física.
No mecanismo de treinamento, o Mega-ASR introduz o ajuste fino supervisionado progressivo de áudio para semântica A2S-SFT, alinhando as características de áudio em fases para melhorar a capacidade do modelo de recuperar semântica sob interferências severas.
Na fase de otimização de estratégia, o modelo utiliza uma estratégia de otimização de taxa de erro de palavra de duplo grau de granularidade com uma política de reforço DG-WGPO.
Quando a qualidade do áudio de entrada é boa e a taxa de erro de palavra é baixa, o sistema foca na reconstrução de detalhes acústicos a nível de caractere.
Se o áudio estiver gravemente distorcido e a taxa de erro de palavra for alta, o mecanismo de decisão muda para uma reconstrução semântica a nível de frase, reduzindo significativamente as alucinações e omissões comuns em grandes modelos.
Para lidar com uma possível ligeira queda na taxa de reconhecimento em áudio limpo, o Mega-ASR possui um mecanismo de roteamento dinâmico.
O decisor de roteamento avalia automaticamente a qualidade do áudio atual e decide inteligentemente se deve montar pesos de ajuste fino LoRA, garantindo que o modelo produza resultados ótimos tanto em ambientes limpos quanto ruidosos.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
6
3
Partilhar

Comentar

Adicionar um comentário

CheckingEthInTheElevator

· 1h atrás

Qwen3-ASR 1.7B de base, o ecossistema da Alibaba mais uma vez saiu vencedor

Ver originalResponder0

NeonIceMelt

· 5h atrás

O que significa um ambiente acústico extremamente complexo? Metrô + bar + obra?

Ver originalResponder0

GateUser-1bc81bb2

· 5h atrás

Equipa doméstica liderando, esta rodada conta como um modelo nacional a sair para o exterior ou uma cooperação internacional

Ver originalResponder0

MistBlueLily

· 6h atrás

Seed-ASR também foi puxado para ser criticado, ByteDance: ?

Ver originalResponder0

ThereIsAChainInTheReflection.

· 6h atrás

A robustez em ambientes reais é a verdadeira prioridade, por mais impressionantes que sejam os indicadores de laboratório, eles desmoronam na prática.

Ver originalResponder0

MevInRetrospect

· 6h atrás

2,4 milhões de amostras, 11 mil horas, engenharia de dados parece uma dor de cabeça

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
269.44K Popularidade
#
PlatinumCardCreatorExclusive
79.53K Popularidade
#
IsraelStrikesIranBTCPlunges
48.62K Popularidade
#
#DailyPolymarketHotspot
1.03M Popularidade
#
GateSquarePizzaDay
609.25K Popularidade

Fixado

Universidade Nacional de Singapura e Nanyang Technological University lançam Mega-ASR de código aberto, reduzindo alucinações e omissões de palavras em reconhecimento de fala sob ruído extremo

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado