Whisper と Gemini 3 Pro は複雑な音響環境下で約30%遅れを取った?この波 Qwen3-ASR 1.7B ベースの Mega-ASR には何かがある、幻覚や文字抜けの問題がついに真剣に扱われるようになった。

原文表示
MeNews
シンガポール国立大学や南洋理工大学などがオープンソースのMega-ASRを開発し、極端なノイズ下でのASRの幻覚や文字の欠落を低減
ME News 消息,5 月 22 日(UTC+8),据 动察 Beating 监测,新加坡国立大学、南洋理工大学与上海人工智能实验室等团队联合开源首个全场景鲁棒语音识别基座模型 Mega-ASR,旨在解决真实环境下语音识别面临的幻觉、丢字和空白输出等问题。模型以 Qwen3-ASR 1.7B 为底层驱动,在极端复杂声学环境下相比 Whisper、Gemini 3 Pro 和 Seed-ASR 等模型实现最高近 30% 的性能提升。目前项目已在 GitHub 开源,并采用 Apache-2.0 协议发布全部代码和模型权重。 研究团队构建了包含 240 万个样本、总长 1.1 万小时的
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め