Национальный университет Сингапура и Технологический университет Наньянг запустили открытый исходный код Mega-ASR, снижая галлюцинации и пропуски слов в ASR при экстремальных шумовых условиях

ME News Новости, 22 мая (UTC+8), согласно мониторингу 动察 Beating, команды Национального университета Сингапура, Технологического университета Наньян и Шанхайской лаборатории искусственного интеллекта совместно открыли первый универсальный устойчивый базовый модель для распознавания речи Mega-ASR, целью которой является решение проблем галлюцинаций, пропусков слов и пустых выводов в условиях реальной среды. Модель основана на Qwen3-ASR 1.7B и показывает до 30% улучшения производительности по сравнению с моделями Whisper, Gemini 3 Pro и Seed-ASR в экстремально сложных акустических условиях. В настоящее время проект открыт на GitHub и опубликован под лицензией Apache-2.0, включая весь код и веса модели. Исследовательская команда создала набор данных, содержащий 2,4 миллиона образцов, общая длина которых составляет 11 000 часов.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
TradfiTradingChallenge
282.26K Популярность
#
PlatinumCardCreatorExclusive
84.15K Популярность
#
IsraelStrikesIranBTCPlunges
48.67K Популярность
#
#DailyPolymarketHotspot
1.04M Популярность
#
GateSquarePizzaDay
1.75M Популярность

Закреплено

Карта сайта

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено