МЕ Новости, 22 мая (UTC+8), согласно мониторингу 动察 Beating, команды Национального университета Сингапура, Технологического университета Наньян и Шанхайской лаборатории искусственного интеллекта совместно открыли первый универсальный базовый модель для устойчивого распознавания речи Mega-ASR, предназначенную для решения проблем галлюцинаций, пропусков слов и пустых выводов в условиях реальной среды. Модель основана на Qwen3-ASR 1.7B и показывает до 30% улучшение производительности по сравнению с моделями Whisper, Gemini 3 Pro и Seed-ASR в экстремальных акустических условиях. В настоящее время проект открыт на GitHub и распространяется под лицензией Apache-2.0, включая весь код и веса модели. Исследовательская команда создала обучающий набор данных Voices-in-the-wild-2M, содержащий 2,4 миллиона образцов общей продолжительностью 11 000 часов. Этот набор данных синтезирован с помощью физически обоснованной спектральной имитационной линии, моделирующей семь атомарных акустических эффектов: реверберацию, эхо, аддитивный шум, дальний звук, потерю частот, ограничение полосы пропускания и искажения среза, а также порождает 54 сложных сценария окружающей среды. Для обеспечения стабильности обучения команда после фильтрации образцов с более чем 70% ошибками в словах откорректировала распределение сложности данных с помощью проверки физической обоснованности. В механизме обучения Mega-ASR внедрена прогрессивная поэтапная настройка с акустической на семантическую (A2S-SFT), которая поэтапно выравнивает аудиофичи для повышения способности модели восстанавливать смысл при сильных помехах. На этапе оптимизации стратегии модель использует двустадийную стратегию управления ошибками слов DG-WGPO для усиленного обучения. При хорошем качестве входного аудио и низкой ошибке слов система фокусируется на реконструкции акустических деталей на уровне символов. В случае сильных искажений и высокой ошибке слов механизм принимает решение о семантической реконструкции на уровне предложений, значительно уменьшая галлюцинации и пропуски слов, характерные для больших моделей. Для компенсации возможного небольшого снижения точности распознавания в чистых условиях, Mega-ASR оснащена динамическим маршрутизатором. Этот маршрутизатор автоматически оценивает качество текущего аудио и умно решает, подключать ли веса дообучения LoRA, обеспечивая оптимальную работу модели как в чистых, так и в шумных сценариях. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
6
3
Поделиться

комментарий

Добавить комментарий

CheckingEthInTheElevator

· 2ч назад

Qwen3-ASR 1.7B в основе, экосистема Alibaba снова победила и выиграла

Посмотреть ОригиналОтветить0

NeonIceMelt

· 6ч назад

Что такое экстремально сложная акустическая среда? Метро + бар + стройплощадка?

Посмотреть ОригиналОтветить0

GateUser-1bc81bb2

· 6ч назад

Ведущая команда внутри страны, считается ли эта волна выхода отечественной модели на международный рынок или международное сотрудничество

Посмотреть ОригиналОтветить0

MistBlueLily

· 7ч назад

Seed-ASR также был выставлен напоказ и подвергнут критике, ByteDance: ?

Посмотреть ОригиналОтветить0

ThereIsAChainInTheReflection.

· 7ч назад

Реальная устойчивость в окружающей среде — это главное, показатели в лаборатории выглядят хорошо, но при внедрении всё развалится

Посмотреть ОригиналОтветить0

MevInRetrospect

· 7ч назад

2,400,000 образцов, 11,000 часов, работа с данными выглядит очень утомительно

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
268.85K Популярность
#
PlatinumCardCreatorExclusive
79.76K Популярность
#
IsraelStrikesIranBTCPlunges
48.62K Популярность
#
#DailyPolymarketHotspot
1.03M Популярность
#
GateSquarePizzaDay
609.93K Популярность

Закреплено

Карта сайта

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено