Qwen3.5-Omni, el modelo multimodal de Alibaba Qianwen, ya está disponible

robot
Generación de resúmenes en curso

Mensajes de BlockBeats, 30 de marzo, Alibaba Qianwen anunció el lanzamiento del modelo de lenguaje de multimodalidad total Qwen3.5-Omni. La serie Qwen3.5-Omni incluye versiones Instruct en tres tamaños: Plus, Flash y Light, con compatibilidad para un contexto largo de 256k. El modelo admite más de 10 horas de entrada de audio y más de 400 segundos de entrada de video y audio 720P (1FPS). El modelo se entrena de forma multimodal nativa a partir de grandes volúmenes de datos de texto, visión y más de 100 millones de horas de datos de video y audio, y el modelo demuestra una capacidad sobresaliente de percepción y generación multimodal total. En comparación con Qwen3-Omni, las capacidades multilingües de Qwen3.5-Omni mejoraron considerablemente, y puede admitir reconocimiento de voz en 113 idiomas y dialectos, así como generación de voz en 36 idiomas y dialectos. (Jin10)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado