El modelo multimodal completo de Alibaba Qwen3.5-Omni en línea

DeepFlowTech · 2026-03-30T13:49:22+00:00

Ali Qianwen lanza el modelo multimodal completo Qwen3.5-Omni, que soporta un contexto largo de 256k y entrada de audio de más de 10 horas, demostrando excelentes capacidades de percepción y generación multimodal, mejorando las funciones multilingües, y soportando 113 tipos de reconocimiento de voz y 36 tipos de generación de voz.

DeepFlowTech

2026-03-30 13:49:22

Generación de resúmenes en curso

Mensaje de Deep Trough TechFlow. El 30 de marzo, según informó Jintou Data, Alibaba Qianwen anunció el lanzamiento del modelo de lenguaje multimodal de todo tipo Qwen3.5-Omni. La serie Qwen3.5-Omni incluye versiones Instruct en tres tamaños: Plus, Flash y Light. Admite un contexto largo y de hasta 256k, y el modelo admite más de 10 horas de entrada de audio y más de 400 segundos de entrada de video y audio 720P (1FPS). El modelo realiza un preentrenamiento multimodal nativo en grandes cantidades de datos de texto, visión y más de 100 millones de horas de datos de video y audio; el modelo muestra capacidades sobresalientes de percepción y generación multimodal de todo tipo. En comparación con Qwen3-Omni, las capacidades multilingües de Qwen3.5-Omni han mejorado significativamente: puede admitir reconocimiento de voz en 113 idiomas y dialectos, y generación de voz en 36 idiomas y dialectos.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.