1.1万小时训练数据、240万样本、全场景鲁棒性——Mega-ASR 不只是又一个 ASR 模型,是冲着「真实环境可用」去的。GitHub 已开源,权重全放,值得拉下来试试。

ME News
新加坡国立与南洋理工等开源Mega-ASR,降低极端噪声下ASR幻觉与丢字
ME News 消息,5 月 22 日(UTC+8),据 动察 Beating 监测,新加坡国立大学、南洋理工大学与上海人工智能实验室等团队联合开源首个全场景鲁棒语音识别基座模型 Mega-ASR,旨在解决真实环境下语音识别面临的幻觉、丢字和空白输出等问题。模型以 Qwen3-ASR 1.7B 为底层驱动,在极端复杂声学环境下相比 Whisper、Gemini 3 Pro 和 Seed-ASR 等模型实现最高近 30% 的性能提升。目前项目已在 GitHub 开源,并采用 Apache-2.0 协议发布全部代码和模型权重。 研究团队构建了包含 240 万个样本、总长 1.1 万小时的
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论