L'Université nationale de Singapour et la Nanyang Technological University ont lancé Mega-ASR open source, réduisant les hallucinations et les omissions dans la reconnaissance automatique de la parole (ASR) sous des bruits extrêmes

ME News Actualités, le 22 mai (UTC+8), selon le monitoring de Dongcha Beating, des équipes de l'Université nationale de Singapour, de l'Institut d'intelligence artificielle de Shanghai et de l'Université technologique de Nanyang ont conjointement open-sourcé le premier modèle de base de reconnaissance vocale robuste à tous les scénarios, Mega-ASR, visant à résoudre les problèmes de hallucinations, de mots manquants et de sorties vides rencontrés en environnement réel.
Le modèle est basé sur Qwen3-ASR 1.7B, et affiche une amélioration de performance allant jusqu'à 30 % par rapport à des modèles comme Whisper, Gemini 3 Pro et Seed-ASR dans des environnements acoustiques extrêmement complexes.
Actuellement, le projet est open-sourcé sur GitHub, avec tous les codes et poids du modèle publiés sous la licence Apache-2.0.
L'équipe de recherche a construit un ensemble de données d'entraînement Voices-in-the-wild-2M comprenant 2,4 millions d'échantillons, totalisant 11 000 heures.
Cet ensemble de données a été synthétisé via une pipeline simulant les caractéristiques physiques du spectre, intégrant sept effets acoustiques atomiques : réverbération, écho, bruit additif, environnement distant, perte de fréquence, limitation de bande passante et distorsion par découpage, et dérivant 54 scénarios environnementaux composites.
Pour assurer la stabilité de l'entraînement, l'équipe a calibré la distribution de difficulté de l'ensemble de données en filtrant les échantillons avec un taux d'erreur de mot supérieur à 70 %, puis en utilisant une détection de la plausibilité physique.
Concernant la mécanique d'entraînement, Mega-ASR introduit une fine-tuning progressive supervisée acoustique à sémantique A2S-SFT, alignant par étapes les caractéristiques audio pour renforcer la capacité du modèle à restaurer la sémantique sous forte perturbation.
Lors de la phase d'optimisation stratégique, le modèle utilise une stratégie de contrôle d'erreur de mot à double granularité, DG-WGPO, pour un apprentissage par renforcement.
Lorsque la qualité de l'audio d'entrée est bonne et que le taux d'erreur de mot est faible, le système privilégie la reconstruction des détails acoustiques au niveau des caractères.
En cas de distorsion sévère de l'audio et de taux d'erreur élevé, le mécanisme de décision se tourne vers une reconstruction sémantique au niveau de la phrase, réduisant considérablement les hallucinations et omissions typiques des grands modèles.
Pour faire face à une légère baisse de précision possible en audio propre, Mega-ASR intègre un mécanisme de routage dynamique.
Le décideur de routage peut évaluer automatiquement la qualité de l'audio actuel et décider intelligemment de charger ou non les poids de fine-tuning LoRA, garantissant ainsi que le modèle donne les résultats optimaux en environnement propre comme bruyant.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • 3
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
CheckingEthInTheElevator
· Il y a 2h
Qwen3-ASR 1.7B en base, l'écosystème Alibaba a encore gagné gros
Voir l'originalRépondre0
NeonIceMelt
· Il y a 6h
Que signifie un environnement acoustique extrêmement complexe ? Métro + bar + chantier ?
Voir l'originalRépondre0
GateUser-1bc81bb2
· Il y a 7h
L'équipe nationale en tête, cette vague compte-t-elle lancer un modèle domestique à l'international ou s'agit-il d'une coopération internationale ?
Voir l'originalRépondre0
MistBlueLily
· Il y a 7h
Seed-ASR a également été traîné dans la boue, ByteDance : ?
Voir l'originalRépondre0
ThereIsAChainInTheReflection.
· Il y a 7h
La robustesse en environnement réel est la véritable règle, même si les indicateurs en laboratoire sont impressionnants, ils s'effondrent une fois appliqués sur le terrain.
Voir l'originalRépondre0
MevInRetrospect
· Il y a 7h
2,4 millions d'échantillons, 11 000 heures, l'ingénierie des données donne juste envie de souffrir
Voir l'originalRépondre0
  • Épinglé