¡Alibaba lanza los tres modelos de Qwen-Robot! Navegación, control y simulación física del robot en una sola vez

Alibaba Qwen equipo lanza Qwen-Robot Suite, que incluye tres modelos básicos de simulación del mundo físico, control y navegación, ocupando el primer lugar en varias pruebas de referencia de robots, siendo considerado el Android en el campo de la robótica.
(Resumen previo: Alibaba Qianwen lanza el modelo "Qwen3.7-Plus" con un precio muy reducido, pero a costa de no liberar los pesos)
(Información adicional: ¡Meta entra en el mercado de robots humanoides! Compra en secreto la startup de IA Assured Robot Intelligence, apostando por la interacción en el mundo físico hacia la AGI)

Índice de este artículo

Alternar

  • Qwen-RobotNav: Modelo de navegación todo en uno
  • Qwen-RobotManip: Control entre robots
  • Qwen-RobotWorld: Interfaz universal basada en lenguaje
  • ¿Cómo se compara con laboratorios occidentales?

(Fuente: Decrypt, Blog oficial de Qwen)

El equipo de Qwen de Alibaba lanzó el martes Qwen-Robot Suite, un conjunto de "stack completo de inteligencia embodied" compuesto por tres modelos básicos. Qwen-RobotNav se encarga de la navegación móvil, Qwen-RobotManip del control mecánico, y Qwen-RobotWorld de la simulación del mundo físico. Los tres modelos operan de forma independiente, pero combinados constituyen el "Android" en el campo de la robótica, que es un sistema operativo, no hardware.

Qwen-RobotNav: Modelo de navegación todo en uno

El modelo de navegación integra tareas de seguimiento de instrucciones, navegación a puntos objetivo, búsqueda de objetos, seguimiento de objetivos y conducción autónoma, cada una requiriendo diferentes estrategias de memoria visual. La mayoría de los modelos se centran en una sola estrategia, mientras que Qwen-RobotNav ofrece una interfaz parametrizable: presupuesto de tokens, decaimiento temporal, peso por cámara, permitiendo que el planificador se reconfigure durante la ejecución.

Este modelo fue entrenado con 15.6 millones de muestras y logró una tasa de éxito del 76.5% en la prueba de referencia VLN-CE RxR (navegación visual y lingüística en entornos reales), y alcanzó un 90% en EVT-Bench (seguimiento de objetivos en movimiento).

Qwen-RobotManip: Control entre robots

Las diferentes formas de representar acciones en distintos robots varían mucho: el brazo robótico Franka usa ángulos de articulación, el robot de doble brazo ALOHA usa la posición y orientación de las pinzas, y los robots humanoides usan coordenadas corporales completas. Alibaba sintetizó aproximadamente 38,100 horas de datos de entrenamiento a partir de bases de datos de robots de código abierto y videos humanos, sin depender de datos privados.

El modelo quedó en primer lugar en la prueba RoboChallenge Table30-v1, superando en un 20% a métodos anteriores.

Qwen-RobotWorld: Interfaz universal basada en lenguaje

Este es el modelo más ambicioso, un modelo de mundo visual condicionado por lenguaje, que usa el lenguaje natural como interfaz de acción universal. La instrucción "levanta la taza roja y vierte agua en la flor" es válida para pinzas, vehículos autónomos o agentes de navegación móvil.

El corpus de conocimientos del mundo embodied cubre 8.6 millones de pares de videos y textos, 200 millones de cuadros, abarcando control (590,000 muestras, más de 1,300 habilidades, más de 20 formas), conducción autónoma (Waymo, NVIDIA PhysicalAI-AD), navegación interior y transferencia entre 14 tipos de brazos mecánicos. El modelo obtuvo la primera posición en las pruebas EWMBench y DreamGen Bench, y puntuaciones perfectas en pruebas de física como leyes de Newton, conservación de masa, dinámica de fluidos y gravedad.

¿Cómo se compara con laboratorios occidentales?

Laboratorios occidentales como DeepMind de Google, Nvidia, Figure y Physical Intelligence también persiguen objetivos similares, pero en su mayoría se enfocan en navegación o control, no en un paquete unificado y ensamblable. La integración vertical de Alibaba, desde chips hasta aplicaciones, le permite controlar toda la cadena ecológica, y todos estos modelos son de código abierto.

Sin embargo, los desarrolladores advierten que estos son modelos de software, no robots físicos, y que su despliegue en escenarios domésticos aún tomará varios años. Alibaba aún no ha anunciado precios, cronogramas o listas de clientes fuera de planes piloto.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado