1.1 мільйон годин тренувальних даних, 2,4 мільйона зразків, всесценарна стійкість — Mega-ASR це не просто ще одна модель автоматичного розпізнавання мови, а орієнтована на «реальне використання в реальних умовах». GitHub вже відкритий, всі ваги доступні, варто завантажити і спробувати.

Переглянути оригінал
MeNews
Національний університет Сінгапуру та Технологічний університет Наньянг відкрили Mega-ASR з відкритим кодом, що зменшує галюцинації та пропуски слів у ASR при екстремальному шумі
ME News Новини, 22 травня (UTC+8), згідно з моніторингом 动察 Beating, команди Національного університету Сінгапуру, Технологічного університету Наньян і Шанхайської лабораторії штучного інтелекту спільно відкрили першу всесценарну стійку модель розпізнавання мови Mega-ASR, яка має на меті вирішити проблеми галюцинацій, пропуску слів і порожніх виходів у реальних умовах. Модель базується на Qwen3-ASR 1.7B і забезпечує до 30% покращення продуктивності в екстремально складних акустичних умовах порівняно з моделями Whisper, Gemini 3 Pro і Seed-ASR. Наразі проект вже відкритий на GitHub і випущений під ліцензією Apache-2.0 з усім кодом і вагами моделі. Команда дослідження створила набір з 2,4 мільйона зразків, загальною тривалістю 11 000 годин.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено