Национальный университет Сингапура и Технологический университет Наньянг запустили открытый исходный код Mega-ASR, снижая галлюцинации и пропуски слов в ASR при экстремальных шумовых условиях

ME News Новости, 22 мая (UTC+8), согласно мониторингу 动察 Beating, команды Национального университета Сингапура, Технологического университета Наньян и Шанхайской лаборатории искусственного интеллекта совместно открыли первый универсальный устойчивый базовый модель для распознавания речи Mega-ASR, целью которой является решение проблем галлюцинаций, пропусков слов и пустых выводов в условиях реальной среды. Модель основана на Qwen3-ASR 1.7B и показывает до 30% улучшения производительности по сравнению с моделями Whisper, Gemini 3 Pro и Seed-ASR в экстремально сложных акустических условиях. В настоящее время проект открыт на GitHub и опубликован под лицензией Apache-2.0, включая весь код и веса модели. Исследовательская команда создала набор данных, содержащий 2,4 миллиона образцов, общая длина которых составляет 11 000 часов.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
TradfiTradingChallenge
316.25K Популярность
#
PlatinumCardCreatorExclusive
113.77K Популярность
#
IsraelStrikesIranBTCPlunges
48.97K Популярность
#
#DailyPolymarketHotspot
1.05M Популярность
#
GateSquarePizzaDay
647.54K Популярность

Закреплено

Карта сайта

1.1万小时训练数据、240万样本、全场景鲁棒性——Mega-ASR 不只是又一个 ASR 模型，是冲着「真实环境可用」去的。GitHub 已开源，权重全放，值得拉下来试试。

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено