Национальный университет Сингапура и Технологический университет Наньянг запустили открытый исходный код Mega-ASR, снижая галлюцинации и пропуски слов в ASR при экстремальных шумовых условиях

МЕ Новости, 22 мая (UTC+8), согласно мониторингу 动察 Beating, команды Национального университета Сингапура, Технологического университета Наньян и Шанхайской лаборатории искусственного интеллекта совместно открыли первый универсальный базовый модель для устойчивого распознавания речи Mega-ASR, предназначенную для решения проблем галлюцинаций, пропусков слов и пустых выводов в условиях реальной среды. Модель основана на Qwen3-ASR 1.7B и показывает до 30% улучшение производительности по сравнению с моделями Whisper, Gemini 3 Pro и Seed-ASR в экстремальных акустических условиях. В настоящее время проект открыт на GitHub и распространяется под лицензией Apache-2.0, включая весь код и веса модели. Исследовательская команда создала обучающий набор данных Voices-in-the-wild-2M, содержащий 2,4 миллиона образцов общей продолжительностью 11 000 часов. Этот набор данных синтезирован с помощью физически обоснованной спектральной имитационной линии, моделирующей семь атомарных акустических эффектов: реверберацию, эхо, аддитивный шум, дальний звук, потерю частот, ограничение полосы пропускания и искажения среза, а также порождает 54 сложных сценария окружающей среды. Для обеспечения стабильности обучения команда после фильтрации образцов с более чем 70% ошибками в словах откорректировала распределение сложности данных с помощью проверки физической обоснованности. В механизме обучения Mega-ASR внедрена прогрессивная поэтапная настройка с акустической на семантическую (A2S-SFT), которая поэтапно выравнивает аудиофичи для повышения способности модели восстанавливать смысл при сильных помехах. На этапе оптимизации стратегии модель использует двустадийную стратегию управления ошибками слов DG-WGPO для усиленного обучения. При хорошем качестве входного аудио и низкой ошибке слов система фокусируется на реконструкции акустических деталей на уровне символов. В случае сильных искажений и высокой ошибке слов механизм принимает решение о семантической реконструкции на уровне предложений, значительно уменьшая галлюцинации и пропуски слов, характерные для больших моделей. Для компенсации возможного небольшого снижения точности распознавания в чистых условиях, Mega-ASR оснащена динамическим маршрутизатором. Этот маршрутизатор автоматически оценивает качество текущего аудио и умно решает, подключать ли веса дообучения LoRA, обеспечивая оптимальную работу модели как в чистых, так и в шумных сценариях. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • 3
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
CheckingEthInTheElevator
· 2ч назад
Qwen3-ASR 1.7B в основе, экосистема Alibaba снова победила и выиграла
Посмотреть ОригиналОтветить0
NeonIceMelt
· 6ч назад
Что такое экстремально сложная акустическая среда? Метро + бар + стройплощадка?
Посмотреть ОригиналОтветить0
GateUser-1bc81bb2
· 6ч назад
Ведущая команда внутри страны, считается ли эта волна выхода отечественной модели на международный рынок или международное сотрудничество
Посмотреть ОригиналОтветить0
MistBlueLily
· 7ч назад
Seed-ASR также был выставлен напоказ и подвергнут критике, ByteDance: ?
Посмотреть ОригиналОтветить0
ThereIsAChainInTheReflection.
· 7ч назад
Реальная устойчивость в окружающей среде — это главное, показатели в лаборатории выглядят хорошо, но при внедрении всё развалится
Посмотреть ОригиналОтветить0
MevInRetrospect
· 7ч назад
2,400,000 образцов, 11,000 часов, работа с данными выглядит очень утомительно
Посмотреть ОригиналОтветить0
  • Закреплено