La Universidad Nacional de Singapur y la Universidad Tecnológica de Nanyang han abierto el código de Mega-ASR, reduciendo las alucinaciones y la pérdida de palabras en el reconocimiento automático de voz bajo ruidos extremos.

Noticias ME News, 22 de mayo (UTC+8), según la monitorización de 动察 Beating, equipos de la Universidad Nacional de Singapur, la Universidad Tecnológica de Nanyang y el Laboratorio de Inteligencia Artificial de Shanghái han abierto el código del primer modelo base de reconocimiento de voz robusto en todos los escenarios, Mega-ASR, con el objetivo de resolver problemas como alucinaciones, omisiones y salidas en blanco en el reconocimiento de voz en entornos reales. El modelo se basa en Qwen3-ASR 1.7B, logrando una mejora de rendimiento cercana al 30% en entornos acústicos extremadamente complejos en comparación con modelos como Whisper, Gemini 3 Pro y Seed-ASR. Actualmente, el proyecto ya está abierto en GitHub y se publica todo el código y los pesos del modelo bajo la licencia Apache-2.0. El equipo de investigación construyó un conjunto de datos de entrenamiento Voices-in-the-wild-2M que contiene 2.4 millones de muestras con una duración total de 11,000 horas. El conjunto de datos se genera mediante una línea de simulación basada en las características físicas del espectro, que sintetiza siete efectos acústicos atómicos: reverberación, eco, ruido aditivo, campo lejano, pérdida de frecuencia, limitación de ancho de banda y distorsión por corte, y deriva 54 escenarios ambientales compuestos. Para garantizar la estabilidad del entrenamiento, el equipo filtró muestras con una tasa de error de palabras superior al 70% y calibró la distribución de dificultad del conjunto de datos mediante una detección de coherencia física. En cuanto al mecanismo de entrenamiento, Mega-ASR introduce la sintonización progresiva de supervisión acústico-semántica A2S-SFT, que alinea las características de audio en fases para mejorar la capacidad del modelo para recuperar semántica en presencia de interferencias severas. En la fase de optimización de estrategia, el modelo utiliza una estrategia de optimización de tasa de error de palabras de doble granularidad con control DG-WGPO para aprendizaje reforzado. Cuando la calidad del audio de entrada es buena y la tasa de error de palabras es baja, el sistema se enfoca en reconstruir detalles acústicos a nivel de carácter. Si el audio está severamente distorsionado y la tasa de error de palabras es alta, el mecanismo de decisión cambia a la reconstrucción semántica a nivel de oración, reduciendo significativamente fenómenos de alucinaciones y omisiones comunes en modelos grandes. Para abordar posibles ligeras caídas en la tasa de reconocimiento en audio limpio, Mega-ASR incorpora un mecanismo de enrutamiento dinámico. El enrutador evalúa automáticamente la calidad del audio actual y decide inteligentemente si debe montar pesos de ajuste fino LoRA, garantizando que el modelo pueda ofrecer resultados óptimos tanto en escenarios limpios como ruidosos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • 3
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
CheckingEthInTheElevator
· hace1h
Qwen3-ASR 1.7B base, el ecosistema de Alibaba vuelve a ganar grande
Ver originalResponder0
NeonIceMelt
· hace5h
¿A qué se refiere un entorno acústico extremadamente complejo? ¿A metro + bar + sitio de construcción?
Ver originalResponder0
GateUser-1bc81bb2
· hace5h
Equipo nacional liderando, ¿esta ola se considera la salida al extranjero de modelos nacionales o cooperación internacional?
Ver originalResponder0
MistBlueLily
· hace6h
Seed-ASR también fue sacado a la luz para ser criticado, ByteDance: ?
Ver originalResponder0
ThereIsAChainInTheReflection.
· hace6h
La robustez en entornos reales es la verdadera clave; los indicadores de laboratorio, por muy buenos que sean, se desploman al implementarse en la práctica.
Ver originalResponder0
MevInRetrospect
· hace6h
2.4 millones de muestras, 11,000 horas, la ingeniería de datos da ganas de sufrir
Ver originalResponder0
  • Fijado