ME News Новини, 22 травня (UTC+8), згідно з моніторингом Датчі Beating, командами Національного університету Сінгапуру, Технологічного університету Наньян і Шанхайської лабораторії штучного інтелекту спільно відкрито першу всесценарну стійку базову модель розпізнавання мови Mega-ASR, яка має на меті вирішити проблеми галюцинацій, пропуску слів і порожніх виходів у реальних умовах. Модель базується на Qwen3-ASR 1.7B і забезпечує до 30% покращення продуктивності у складних акустичних умовах порівняно з Whisper, Gemini 3 Pro і Seed-ASR. Наразі проект вже відкритий на GitHub і випущений під ліцензією Apache-2.0 з усім кодом і вагами моделі.
Команда дослідження створила тренувальний набір Voices-in-the-wild-2M, що містить 2,4 мільйона зразків загальною тривалістю 11 000 годин. Набір даних синтезовано за допомогою фізично обґрунтованої симуляційної лінії, яка моделює сім атомарних акустичних ефектів: реверберацію, ехо, адитивний шум, дальній звук, втрата частоти, обмеження пропускної здатності та обрізання спотворень, і створено 54 складних сценаріїв навколишнього середовища. Для забезпечення стабільності тренування команда після фільтрації зразків з помилкою розпізнавання понад 70% провела калібрування складності набору даних за допомогою фізичних перевірок.
У механізмі тренування Mega-ASR застосовано поступове акустично-семантичне кероване тонке налаштування A2S-SFT, яке поетапно вирівнює аудіоособливості для підсилення здатності моделі відновлювати семантику у важких перешкодах. На етапі оптимізації стратегії модель використовує двогранну політику помилок слів DG-WGPO для підкріпленого навчання. При високій якості вхідного аудіо і низькому рівні помилок слів система зосереджується на відновленні акустичних деталей на рівні символів. У разі серйозних спотворень і високого рівня помилок слів механізм прийняття рішень переходить до семантичної реконструкції на рівні речень, значно зменшуючи галюцинації та пропуски слів, характерні для великих моделей.
Щоб компенсувати можливе незначне зниження точності розпізнавання у чистих аудіо, Mega-ASR має вбудований динамічний маршрутизатор. Цей маршрутизатор автоматично оцінює якість поточного аудіо і розумно вирішує, чи застосовувати ваги тонкої настройки LoRA, забезпечуючи оптимальні результати як у чистих, так і у шумних умовах.
(Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

10 лайків

Нагородити
10
6
3
Поділіться

Прокоментувати

Додати коментар

CheckingEthInTheElevator

· 3год тому

Qwen3-ASR 1.7B базовий, екосистема Alibaba знову перемогла