¡Compatibilidad con 3500 pares de idiomas! Alibaba lanza el primer modelo grande de traducción simultánea mejorado visualmente Qwen3.5-LiveTranslate

robot
Generación de resúmenes en curso
Noticias de AIMPACT, 20 de mayo (UTC+8), según el monitoreo de Dongcha Beating, el sistema de interpretación simultánea está evolucionando de una traducción de voz monótona a un intérprete digital multimodal capaz de comprender imágenes y clonar voces humanas. El 19 de mayo, el Laboratorio Tongyi de Alibaba anunció oficialmente el lanzamiento de un nuevo modelo de interpretación simultánea de audio y video en tiempo real, Qwen3.5-LiveTranslate, que mejora significativamente la capacidad de interpretación simultánea en tiempo real a más de 3500 pares de idiomas, y por primera vez admite clonación de voz en tiempo real, personalización de palabras clave y comprensión visual. El nuevo modelo se basa en la arquitectura Qwen3.5-Omni y ahora admite comprensión y escritura en 60 idiomas, así como salida de voz en 29 idiomas. A diferencia del software de interpretación tradicional que solo escucha el sonido, el nuevo modelo introduce contexto visual en tiempo real para eliminar ambigüedades semánticas. Por ejemplo, cuando aparece una máscara específica en el video, el sistema puede combinar características visuales para distinguir con precisión entre una máscara médica y una máscara de baile de máscaras en inglés, compensando así la falta de información de sonido. Para eliminar los sesgos de transcripción causados por el ruido y los acentos, el nuevo modelo también introduce un mecanismo de inyección dinámica de palabras clave. La razón es simple: los usuarios pueden especificar directamente nombres de personas, marcas o términos de la industria en el flujo de traducción, forzando la traducción correcta y evitando que los nombres propios se desvíen durante la interpretación simultánea. En la interpretación simultánea entre idiomas, el modelo también admite clonación de voz en tiempo real, capaz de reproducir en tiempo real el timbre y el tono de la voz original del hablante en el flujo de interpretación. Actualmente, el nuevo modelo ya está disponible en la plataforma de experiencia Qwen Omni, y en el futuro la API estará disponible en la plataforma Alibaba Cloud Bailian. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios