1.1万小时训练数据、240万样本、全场景鲁棒性——Mega-ASR 不只是又一个 ASR 模型,是冲着「真实环境可用」去的。GitHub 已开源,权重全放,值得拉下来试试。

MeNews
Национальный университет Сингапура и Технологический университет Наньянг запустили открытый исходный код Mega-ASR, снижая галлюцинации и пропуски слов в ASR при экстремальных шумовых условиях
ME News Новости, 22 мая (UTC+8), согласно мониторингу 动察 Beating, команды Национального университета Сингапура, Технологического университета Наньян и Шанхайской лаборатории искусственного интеллекта совместно открыли первый универсальный устойчивый базовый модель для распознавания речи Mega-ASR, целью которой является решение проблем галлюцинаций, пропусков слов и пустых выводов в условиях реальной среды. Модель основана на Qwen3-ASR 1.7B и показывает до 30% улучшения производительности по сравнению с моделями Whisper, Gemini 3 Pro и Seed-ASR в экстремально сложных акустических условиях. В настоящее время проект открыт на GitHub и опубликован под лицензией Apache-2.0, включая весь код и веса модели. Исследовательская команда создала набор данных, содержащий 2,4 миллиона образцов, общая длина которых составляет 11 000 часов.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено