新加坡国立与南洋理工等开源Mega-ASR,降低极端噪声下ASR幻觉与丢字

ME News 消息,5 月 22 日(UTC+8),据 动察 Beating 监测,新加坡国立大学、南洋理工大学与上海人工智能实验室等团队联合开源首个全场景鲁棒语音识别基座模型 Mega-ASR,旨在解决真实环境下语音识别面临的幻觉、丢字和空白输出等问题。模型以 Qwen3-ASR 1.7B 为底层驱动,在极端复杂声学环境下相比 Whisper、Gemini 3 Pro 和 Seed-ASR 等模型实现最高近 30% 的性能提升。目前项目已在 GitHub 开源,并采用 Apache-2.0 协议发布全部代码和模型权重。 研究团队构建了包含 240 万个样本、总长 1.1 万小时的 Voices-in-the-wild-2M 训练数据集。数据集通过基于频谱物理特性的模拟流水线,合成涵盖混响、回声、加性噪声、远场、频率丢包、带宽限制以及剪切失真 7 种原子声学效应,并衍生出 54 种复合环境场景。为确保训练的稳定性,团队在过滤掉词错误率超过 70% 的样本后,通过物理合理性检测对数据集难度分布进行校准。 在训练机制上,Mega-ASR 引入了声学到语义渐进式监督微调 A2S-SFT,分阶段对音频特征进行对齐,以增强模型在重度干扰下的语义恢复能力。在策略优化阶段,模型采用双粒度词错误率门控策略优化 DG-WGPO 进行强化学习。当输入音频质量较好、词错误率较低时,系统侧重字符级的声学细节重建。若音频严重失真、词错误率较高,决策机制则转向句子级的语义重构,大幅减少大模型常见的幻觉与漏字现象。 为了应对在干净音频下可能出现的识别率略微下降,Mega-ASR 内置了动态路由机制。路由决策器能自动评估当前音频的质量,智能决定是否挂载 LoRA 微调权重,从而保证模型在干净和嘈杂场景下都能输出最优结果。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 3
  • 分享
评论
请输入评论内容
请输入评论内容
电梯里看ETH
· 2小时前
Qwen3-ASR 1.7B打底,阿里生态又赢麻了
回复0
霓虹融冰
· 7小时前
极端复杂声学环境指什么?地铁+酒吧+工地?
回复0
GateUser-1bc81bb2
· 7小时前
国内团队主导,这波算国产模型出海还是国际合作
回复0
雾蓝百合
· 7小时前
Seed-ASR也被拉出来鞭尸,字节:?
回复0
反光里有链
· 7小时前
真实环境鲁棒性才是硬道理,实验室指标再好看落地就崩
回复0
MEV的后视镜
· 7小时前
240万样本1.1万小时,数据工程看着就肝疼
回复0