Alibaba presenta modelos de IA para la gestión de robots - ForkLog

Tool_AI# Alibaba presentó modelos de IA para la gestión de robots

Alibaba presentó Qwen-Robot Suite — un conjunto de modelos de IA para robots y tareas en entornos físicos: Qwen-RobotNav para navegación, Qwen-RobotManip para manipulación de objetos y Qwen-RobotWorld para predecir el desarrollo de escenas. El equipo describió el proyecto como «una pila completa para inteligencia incorporada».

📣 Presentando el Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, tres modelos fundamentales, una pila completa para inteligencia incorporada.

🧭 Qwen-RobotNav — la puerta de entrada a la movilidad.
• Unifica 5 tareas de navegación en un solo modelo: seguimiento de instrucciones, objetivo puntual,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) 16 de junio de 2026

Se trata de modelos de software que deben ayudar a agentes físicos a percibir su entorno, planificar acciones y ejecutar comandos en lenguaje natural. Qwen-Robot Suite ya está en pruebas piloto con algunos clientes corporativos de Alibaba Cloud en el sector de la robótica.

Por qué Alibaba lleva Qwen al mundo físico

Los grandes modelos de lenguaje y multimodales ya saben trabajar con texto, imágenes, videos y voz, pero esto no es suficiente para los robots. Los agentes físicos necesitan no solo entender la orden, sino traducirla en movimiento, considerar el espacio, las propiedades de los objetos, las limitaciones de los sensores y las consecuencias de sus acciones.

Alibaba llama a esto la dirección de IA física, o «IA incorporada». En este enfoque, el modelo debe trabajar no solo con datos digitales, sino también con el entorno físico: desplazarse, encontrar objetos, controlar manipuladores y predecir qué sucederá después de una acción.

Qwen-RobotNav: cinco tareas de navegación en un solo modelo

Qwen-RobotNav se encarga de la navegación. El modelo combina cinco grupos de tareas:

  • seguir instrucciones;
  • desplazarse hacia un punto objetivo;
  • buscar objetos;
  • seguir una meta;
  • conducción autónoma.

Según Alibaba, Qwen-RobotNav está basado en Qwen3-VL y entrenado con 15,6 millones de muestras relacionadas con planificación de rutas y razonamiento visual-lingüístico.

La compañía afirmó una tasa de éxito del 76,5% en VLN-CE RxR y del 90% en EVT-Bench. Además, en Alibaba aclararon que el modelo puede funcionar como una herramienta para sistemas de agentes más grandes: un modelo de alto nivel planifica la tarea, y Qwen-RobotNav se encarga del desplazamiento.

Fuente: Qwen. En las demostraciones, Alibaba describe escenarios como buscar un objeto perdido en un interior o verificar si un elemento específico está abierto en un edificio. En estas tareas, el robot no solo debe moverse, sino recopilar evidencias visuales y devolver una respuesta al usuario.

Qwen-RobotManip: acciones con objetos

Qwen-RobotManip está diseñada para acciones físicas con objetos. El modelo debe ayudar a los robots a coger, mover y colocar objetos, así como transferir habilidades entre diferentes tipos de dispositivos.

Fuente: Qwen-RobotManip. Uno de los principales problemas en robótica es que los robots describen las acciones de manera diferente. Un manipulador, una plataforma de doble brazo, un robot con pinzas o un sistema móvil usan diferentes coordenadas, articulaciones y formatos de comandos. Qwen-RobotManip intenta unificar estos datos para que el entrenamiento en un tipo de robot beneficie a otros.

Para entrenar, Alibaba utilizó más de 38,100 horas de datos. Este volumen incluye 11,320 horas de datos abiertos de robótica, 1,933 horas de videos de acciones humanas en primera persona y 24,808 horas de demostraciones robóticas sintéticas creadas a partir de estos videos.

La compañía afirmó que el modelo ocupó el primer lugar en RoboChallenge Table30 v1 en la categoría de modelos universales. Según Alibaba, Qwen-RobotManip también mostró resistencia a nuevas instrucciones, objetos desconocidos y transferencia de habilidades entre diferentes robots.

Qwen-RobotWorld: modelo del mundo para robots

Qwen-RobotWorld es un modelo visual del mundo, controlado por lenguaje natural. Debe predecir cómo evolucionará la escena tras una acción dada.

Fuente: Qwen-RobotWorld. Por ejemplo, el modelo recibe la observación actual y un comando textual, y luego genera un estado futuro probable del entorno. Este enfoque puede usarse para manipulaciones, conducción autónoma, navegación, planificación y creación de datos sintéticos de entrenamiento para robots.

Para entrenar Qwen-RobotWorld, el equipo recopiló un corpus llamado Embodied World Knowledge. Incluye 8.6 millones de pares «video-texto» y más de 200 millones de cuadros, abarcando más de 20 tipos de plataformas robóticas y más de 500 categorías de acciones.

Alibaba afirmó que Qwen-RobotWorld ocupó el primer lugar en EWMBench y DreamGen Bench, además de superar a todos los modelos abiertos en WorldModelBench y PBench. En la descripción técnica también se afirma que el modelo muestra alta coherencia con las leyes físicas básicas — movimiento, conservación de masa, líquidos y gravedad.

Aún lejos de los robots masivos

A pesar de los resultados anunciados, Qwen-Robot Suite sigue siendo un conjunto de modelos, no una plataforma robótica lista para consumidores. La implementación real enfrenta ruido en los sensores, desgaste de los actuadores, situaciones imprevistas, errores de percepción y una gran cantidad de escenarios raros. Muchos benchmarks en los que comparan estos sistemas se realizan en simulaciones o en condiciones experimentales limitadas.

Alibaba tampoco reveló el costo de acceso, los plazos de lanzamiento público ni la lista de clientes que ya prueban Qwen-Robot Suite.

Recordemos que en abril, Alibaba Cloud presentó el modelo de agente Qwen3.6-Plus con ventana de contexto de 1 millón de tokens y soporte para herramientas externas.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado