Національний університет Сінгапуру та Технологічний університет Наньянг відкрили Mega-ASR з відкритим кодом, що зменшує галюцинації та пропуски слів у ASR при екстремальному шумі

ME News Новини, 22 травня (UTC+8), згідно з моніторингом Датчі Beating, командами Національного університету Сінгапуру, Технологічного університету Наньян і Шанхайської лабораторії штучного інтелекту спільно відкрито першу всесценарну стійку базову модель розпізнавання мови Mega-ASR, яка має на меті вирішити проблеми галюцинацій, пропуску слів і порожніх виходів у реальних умовах. Модель базується на Qwen3-ASR 1.7B і забезпечує до 30% покращення продуктивності у складних акустичних умовах порівняно з Whisper, Gemini 3 Pro і Seed-ASR. Наразі проект вже відкритий на GitHub і випущений під ліцензією Apache-2.0 з усім кодом і вагами моделі.
Команда дослідження створила тренувальний набір Voices-in-the-wild-2M, що містить 2,4 мільйона зразків загальною тривалістю 11 000 годин. Набір даних синтезовано за допомогою фізично обґрунтованої симуляційної лінії, яка моделює сім атомарних акустичних ефектів: реверберацію, ехо, адитивний шум, дальній звук, втрата частоти, обмеження пропускної здатності та обрізання спотворень, і створено 54 складних сценаріїв навколишнього середовища. Для забезпечення стабільності тренування команда після фільтрації зразків з помилкою розпізнавання понад 70% провела калібрування складності набору даних за допомогою фізичних перевірок.
У механізмі тренування Mega-ASR застосовано поступове акустично-семантичне кероване тонке налаштування A2S-SFT, яке поетапно вирівнює аудіоособливості для підсилення здатності моделі відновлювати семантику у важких перешкодах. На етапі оптимізації стратегії модель використовує двогранну політику помилок слів DG-WGPO для підкріпленого навчання. При високій якості вхідного аудіо і низькому рівні помилок слів система зосереджується на відновленні акустичних деталей на рівні символів. У разі серйозних спотворень і високого рівня помилок слів механізм прийняття рішень переходить до семантичної реконструкції на рівні речень, значно зменшуючи галюцинації та пропуски слів, характерні для великих моделей.
Щоб компенсувати можливе незначне зниження точності розпізнавання у чистих аудіо, Mega-ASR має вбудований динамічний маршрутизатор. Цей маршрутизатор автоматично оцінює якість поточного аудіо і розумно вирішує, чи застосовувати ваги тонкої настройки LoRA, забезпечуючи оптимальні результати як у чистих, так і у шумних умовах.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • 3
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
CheckingEthInTheElevator
· 3год тому
Qwen3-ASR 1.7B базовий, екосистема Alibaba знову перемогла
Переглянути оригіналвідповісти на0
NeonIceMelt
· 7год тому
Що таке екстремально складне акустичне середовище? Метро + бар + будівельний майданчик?
Переглянути оригіналвідповісти на0
GateUser-1bc81bb2
· 7год тому
Внутрішня команда керує, чи ця хвиля вважається виходом китайської моделі на світовий ринок або міжнародним співробітництвом?
Переглянути оригіналвідповісти на0
MistBlueLily
· 8год тому
Seed-ASR також був витягнутий для критики, ByteDance: ?
Переглянути оригіналвідповісти на0
ThereIsAChainInTheReflection.
· 8год тому
Реальна стійкість у реальному середовищі — це справжня цінність, показники в лабораторії можуть виглядати гарно, але при застосуванні — провалитися
Переглянути оригіналвідповісти на0
MevInRetrospect
· 8год тому
2,4 мільйони зразків, 11 000 годин, інженерія даних виглядає так, ніби болить печінка
Переглянути оригіналвідповісти на0
  • Закріплено