Tongyi integra Vibe Coding en el modo multimodal completo, Qwen3.5-Omni logra 215 récords de estado del arte (SOTA)

robot
Generación de resúmenes en curso

Según el monitoreo de 1M AI News, el laboratorio Tongyi lanzó el modelo multimodal Qwen3.5-Omni, que admite entradas de texto, imágenes, audio y audio/video, y puede generar subtítulos de audio/video de grano fino con marcas de tiempo. La versión oficial afirma que Qwen3.5-Omni-Plus logró 215 SOTA en tareas como análisis de audio y audio/video, razonamiento, conversaciones, traducción, etc., y que sus capacidades superan a Gemini-3.1-Pro.

Lo más especial de esta actualización no es el ranking, sino la «capacidad de Audio-Visual Vibe Coding que emerge de manera natural». Tongyi afirma que el modelo no recibió un entrenamiento específico y aun así ya puede, a partir de instrucciones de audio/video, generar código ejecutable directamente. La fuente oficial también indica que el modelo admite un contexto de 256K, reconocimiento de 113 tipos de idioma, puede procesar 10 horas de audio o 1 hora de video, y tiene soporte nativo para WebSearch y llamadas complejas a Function Call.

Qwen3.5-Omni continúa la arquitectura de división de trabajo Thinker-Talker, y ambas partes se actualizan a Hybrid-Attention MoE. Tongyi ya ofreció Plus, Flash y Light de tres tamaños mediante el programa Bai Lian de Alibaba Cloud, y además lanzó la versión en tiempo real Qwen3.5-Omni-Plus-Realtime.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado