¿Whisper y Gemini 3 Pro son superados en casi un 30% en entornos acústicos complejos? Esta versión de Qwen3-ASR 1.7B base, Mega-ASR, tiene algo, los problemas de alucinaciones y omisiones finalmente se abordan de manera seria.

Ver original
MeNews
La Universidad Nacional de Singapur y la Universidad Tecnológica de Nanyang han abierto el código de Mega-ASR, reduciendo las alucinaciones y la pérdida de palabras en el reconocimiento automático de voz bajo ruidos extremos.
ME News Noticias, 22 de mayo (UTC+8), según Beating de Monitoreo de Dongcha, equipos de la Universidad Nacional de Singapur, la Universidad Tecnológica de Nanyang y el Laboratorio de Inteligencia Artificial de Shanghái han colaborado para lanzar el primer modelo base de reconocimiento de voz robusto en todos los escenarios, Mega-ASR, con código abierto, con el objetivo de resolver problemas como alucinaciones, omisión de palabras y salidas en blanco en el reconocimiento de voz en entornos reales. El modelo se basa en Qwen3-ASR 1.7B como motor subyacente, logrando una mejora de rendimiento cercana al 30% en entornos acústicos extremadamente complejos en comparación con modelos como Whisper, Gemini 3 Pro y Seed-ASR. Actualmente, el proyecto ya está abierto en GitHub y se publica todo el código y los pesos del modelo bajo la licencia Apache-2.0. El equipo de investigación construyó un conjunto de datos que contiene 2.4 millones de muestras, con una duración total de 11,000 horas.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado