El modelo multimodal completo de Alibaba Qwen3.5-Omni en línea

robot
Generación de resúmenes en curso

Mensaje de Deep Trough TechFlow. El 30 de marzo, según informó Jintou Data, Alibaba Qianwen anunció el lanzamiento del modelo de lenguaje multimodal de todo tipo Qwen3.5-Omni. La serie Qwen3.5-Omni incluye versiones Instruct en tres tamaños: Plus, Flash y Light. Admite un contexto largo y de hasta 256k, y el modelo admite más de 10 horas de entrada de audio y más de 400 segundos de entrada de video y audio 720P (1FPS). El modelo realiza un preentrenamiento multimodal nativo en grandes cantidades de datos de texto, visión y más de 100 millones de horas de datos de video y audio; el modelo muestra capacidades sobresalientes de percepción y generación multimodal de todo tipo. En comparación con Qwen3-Omni, las capacidades multilingües de Qwen3.5-Omni han mejorado significativamente: puede admitir reconocimiento de voz en 113 idiomas y dialectos, y generación de voz en 36 idiomas y dialectos.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado