10 000 heures de données d'entraînement, 2,4 millions d'échantillons, robustesse dans tous les scénarios — Mega-ASR n'est pas simplement un autre modèle ASR, c'est destiné à être « utilisable en environnement réel ». GitHub a déjà publié le code source, tous les poids sont disponibles, ça vaut la peine de le télécharger et d'essayer.

Voir l'original
MeNews
L'Université nationale de Singapour et la Nanyang Technological University ont lancé Mega-ASR open source, réduisant les hallucinations et les omissions dans la reconnaissance automatique de la parole (ASR) sous des bruits extrêmes
ME News Actualités, le 22 mai (UTC+8), selon le suivi de Beating, des équipes de l'Université nationale de Singapour, de l'Institut d'intelligence artificielle de Shanghai et de l'Université technologique de Nanyang ont conjointement open source le premier modèle de base de reconnaissance vocale robuste à tous les scénarios, Mega-ASR, visant à résoudre les problèmes de hallucinations, de suppression de mots et de sorties vides rencontrés en environnement réel.
Le modèle est basé sur Qwen3-ASR 1.7B, et dans des environnements acoustiques extrêmement complexes, il offre une amélioration de performance allant jusqu'à près de 30 % par rapport à des modèles tels que Whisper, Gemini 3 Pro et Seed-ASR.
Actuellement, le projet est open source sur GitHub, avec tous les codes et poids du modèle publiés sous la licence Apache-2.0.
L'équipe de recherche a construit un ensemble comprenant 2,4 millions d'échantillons, d'une durée totale de 11 000 heures.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé