Alibaba lança o modelo Qwen-Robot de três componentes! Navegação, controlo do robô e simulação física de uma só vez

Alibaba Qwen equipa lança Qwen-Robot Suite, composta por três modelos básicos de inteligência incorporada, incluindo navegação, controlo e simulação do mundo físico, que ocupa o primeiro lugar em várias provas de referência de robótica, sendo considerado o momento Android no domínio robótico.
(Contexto anterior: Alibaba Qianwen lança o modelo "Qwen3.7-Plus" com preços drasticamente reduzidos, mas sem abrir os pesos)
(Informação adicional: Meta entra na corrida dos robôs humanoides! Compra secreta da startup de IA Assured Robot Intelligence, apostando na "interação com o mundo físico" rumo à AGI)

Índice deste artigo

Alternar

  • Qwen-RobotNav: Modelo de navegação tudo-em-um
  • Qwen-RobotManip: Controlo entre robôs
  • Qwen-RobotWorld: Interface universal de linguagem
  • Como se compara com laboratórios ocidentais?

(Fonte: Decrypt, Blog oficial do Qwen)

A equipa Qwen da Alibaba lançou na terça-feira o Qwen-Robot Suite, um conjunto de inteligência incorporada composto por três modelos básicos de "pilha completa de inteligência física". Qwen-RobotNav é responsável pela navegação móvel, Qwen-RobotManip pelo controlo mecânico, e Qwen-RobotWorld pela simulação do mundo físico. Os três modelos operam de forma independente, formando o "Android Moment" no domínio robótico, que é um sistema operativo, não hardware.

Qwen-RobotNav: Modelo de navegação tudo-em-um

O modelo de navegação integra cinco tarefas: seguimento de comandos, navegação por pontos-alvo, busca de objetos, rastreamento de objetivos e condução autónoma, cada uma requerendo estratégias visuais de memória diferentes. A maioria dos modelos foca numa única estratégia, enquanto o Qwen-RobotNav oferece uma interface parametrizável: orçamento de tokens, atenuação temporal, peso por câmara, permitindo ao planeador reconfigurar durante a execução.

Este modelo foi treinado com 15,6 milhões de exemplos e obteve uma taxa de sucesso de 76,5% na prova de referência VLN-CE RxR (navegação visual e linguística em ambientes reais), e 90% na EVT-Bench (seguimento de objetos em movimento).

Qwen-RobotManip: Controlo entre robôs

As diferentes formas de representação de movimento entre robôs variam bastante: o braço robótico Franka usa ângulos de articulação, o robô de duas mãos ALOHA usa a posição e direção das pinças, enquanto o robô humanoide usa coordenadas corporais completas. A Alibaba compilou cerca de 38.100 horas de dados de treino a partir de bases de dados de robôs de código aberto e vídeos de humanos, sem depender de dados privados.

Este modelo ficou em primeiro lugar na prova RoboChallenge Table30-v1, superando em 20% os métodos anteriores.

Qwen-RobotWorld: Interface universal de linguagem

Este é o modelo mais ambicioso, uma simulação de mundo de vídeo baseada em linguagem, usando linguagem natural como interface de ações universal. Comando como "Pegue o copo vermelho e verta água na flor" é válido para pinças, veículos autónomos ou agentes de navegação móvel.

O corpus de conhecimento do mundo físico incorporado cobre 8,6 milhões de pares de vídeo e texto, 200 milhões de quadros, abrangendo controlo (590 mil exemplos, mais de 1.300 habilidades, mais de 20 formas), condução autónoma (Waymo, NVIDIA PhysicalAI-AD), navegação interior e transferência homem-máquina através de 14 tipos de braços robóticos. O modelo obteve a primeira posição nas provas EWMBench e DreamGen Bench, e pontuou perfeitamente em testes de física como leis de Newton, conservação de massa, dinâmica de fluidos e gravidade.

Como se compara com laboratórios ocidentais?

Laboratórios ocidentais como Google DeepMind, Nvidia, Figure e Physical Intelligence também perseguem objetivos semelhantes, mas focam maioritariamente em navegação ou controlo, não numa plataforma unificada e modular. A integração vertical da Alibaba, desde chips até aplicações, permite-lhe controlar toda a cadeia ecológica, e todos estes modelos são de código aberto.

No entanto, os desenvolvedores alertam que estes são modelos de software, não robôs físicos, e a implementação prática em ambientes domésticos ainda levará vários anos. A Alibaba ainda não anunciou preços, cronogramas ou planos de pilotos fora da lista de clientes.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado