Whisper et Gemini 3 Pro sont dépassés d'environ 30 % dans des environnements acoustiques complexes ? Cette version Qwen3-ASR 1.7B de Mega-ASR a quelque chose, les problèmes d'hallucinations et de perte de mots ont enfin été pris au sérieux.

Voir l'original
MeNews
L'Université nationale de Singapour et la Nanyang Technological University ont lancé Mega-ASR open source, réduisant les hallucinations et les omissions dans la reconnaissance automatique de la parole (ASR) sous des bruits extrêmes
ME News Actualités, le 22 mai (UTC+8), selon le suivi de Beating, des équipes de l'Université nationale de Singapour, de l'Institut d'intelligence artificielle de Shanghai et de l'Université technologique de Nanyang ont conjointement open source le premier modèle de base de reconnaissance vocale robuste à tous les scénarios, Mega-ASR, visant à résoudre les problèmes de hallucinations, de suppression de mots et de sorties vides rencontrés en environnement réel.
Le modèle est basé sur Qwen3-ASR 1.7B, et dans des environnements acoustiques extrêmement complexes, il offre une amélioration de performance allant jusqu'à près de 30 % par rapport à des modèles tels que Whisper, Gemini 3 Pro et Seed-ASR.
Actuellement, le projet est open source sur GitHub, avec tous les codes et poids du modèle publiés sous la licence Apache-2.0.
L'équipe de recherche a construit un ensemble comprenant 2,4 millions d'échantillons, d'une durée totale de 11 000 heures.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé