Whisper и Gemini 3 Pro в сложных акустических условиях отстают почти на 30%? Эта версия Qwen3-ASR 1.7B базовой модели Mega-ASR действительно что-то из себя представляет, проблемы галлюцинаций и пропущенных слов наконец-то начали восприниматься всерьёз.

Посмотреть Оригинал
MeNews
Национальный университет Сингапура и Технологический университет Наньянг запустили открытый исходный код Mega-ASR, снижая галлюцинации и пропуски слов в ASR при экстремальных шумовых условиях
ME News Новости, 22 мая (UTC+8), согласно мониторингу 动察 Beating, команды Национального университета Сингапура, Технологического университета Наньян и Шанхайской лаборатории искусственного интеллекта совместно открыли первый универсальный устойчивый базовый модель для распознавания речи Mega-ASR, целью которой является решение проблем галлюцинаций, пропусков слов и пустых выводов в условиях реальной среды. Модель основана на Qwen3-ASR 1.7B и показывает до 30% улучшения производительности по сравнению с моделями Whisper, Gemini 3 Pro и Seed-ASR в экстремально сложных акустических условиях. В настоящее время проект открыт на GitHub и опубликован под лицензией Apache-2.0, включая весь код и веса модели. Исследовательская команда создала набор данных, содержащий 2,4 миллиона образцов, общая длина которых составляет 11 000 часов.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено