Alibaba lança o modelo Qwen-Robot de três modelos! Navegação, controle de robô e simulação física de uma só vez

Alibaba Qwen equipe lança Qwen-Robot Suite, incluindo três modelos básicos de navegação, manipulação e simulação do mundo físico, conquistando a primeira posição em várias avaliações de robótica, sendo considerado o momento Android no campo de robôs.
(Contexto anterior: Alibaba Qianwen lança o modelo "Qwen3.7-Plus" com preço drasticamente reduzido, mas sem liberar os pesos)
(Informação adicional: Meta entra no mercado de robôs humanoides! Compra secreta da startup de IA Assured Robot Intelligence, apostando na "interação com o mundo físico" rumo à AGI)

Índice deste artigo

Alternar

  • Qwen-RobotNav: Modelo de navegação tudo-em-um
  • Qwen-RobotManip: Controle entre robôs
  • Qwen-RobotWorld: Interface universal baseada em linguagem
  • Como se compara com laboratórios ocidentais?

(Fonte: Decrypt, Blog oficial do Qwen)

A equipe Qwen da Alibaba lançou na terça-feira o Qwen-Robot Suite, um conjunto de "pilha completa de inteligência incorporada" composta por três modelos básicos. Qwen-RobotNav é responsável pela navegação móvel, Qwen-RobotManip pelo controle mecânico, e Qwen-RobotWorld pela simulação do mundo físico. Os três modelos operam de forma independente, formando o "Momento Android" no campo de robôs, que é um sistema operacional, não hardware.

Qwen-RobotNav: Modelo de navegação tudo-em-um

O modelo de navegação integra tarefas de seguir comandos, navegação por pontos-alvo, busca de objetos, rastreamento de objetivos e condução autônoma, cada uma exigindo estratégias visuais de memória diferentes. A maioria dos modelos foca em uma única estratégia, enquanto o Qwen-RobotNav oferece uma interface parametrizável: orçamento de tokens, decaimento temporal, peso por câmera, permitindo que o planejador seja reconfigurado durante a execução.

Este modelo foi treinado com 15,6 milhões de amostras e obteve uma taxa de sucesso de 76,5% na avaliação VLN-CE RxR (navegação visual e linguística em ambientes reais), e 90% na EVT-Bench (rastreamento de objetos em movimento).

Qwen-RobotManip: Controle entre robôs

As diferentes formas de representação de movimento entre robôs variam bastante: o braço robótico Franka usa ângulos de articulação, o robô de duas mãos ALOHA usa a posição e direção das garras, enquanto o robô humanoide usa coordenadas corporais completas. A Alibaba compilou cerca de 38.100 horas de dados de treinamento a partir de bancos de dados de robôs de código aberto e vídeos de humanos, sem depender de dados privados.

O modelo ficou em primeiro lugar na avaliação RoboChallenge Table30-v1, superando métodos anteriores em 20%.

Qwen-RobotWorld: Interface universal baseada em linguagem

Este é o modelo mais ambicioso, uma representação de mundo de vídeo condicionada por linguagem, usando a linguagem natural como interface de ação universal. Comando como "Pegue o copo vermelho e derrame água na flor" é válido para pinças, veículos autônomos ou agentes de navegação móvel.

O corpus de conhecimento do mundo incorporado cobre 8,6 milhões de pares de vídeo e texto, 200 milhões de quadros, abrangendo controle (590 mil amostras, mais de 1.300 habilidades, mais de 20 formas), condução autônoma (Waymo, NVIDIA PhysicalAI-AD), navegação interna e transferência homem-máquina entre 14 tipos de braços robóticos. O modelo lidera nas avaliações EWMBench e DreamGen Bench, e pontua máximo em testes de física como leis de Newton, conservação de massa, dinâmica de fluidos e gravidade.

Como se compara com laboratórios ocidentais?

Laboratórios ocidentais como DeepMind do Google, Nvidia, Figure e Physical Intelligence também perseguem objetivos semelhantes, mas focam mais em navegação ou controle, ao invés de um pacote unificado e modular. A integração vertical da Alibaba, do chip à aplicação, garante controle total sobre toda a cadeia ecológica, e todos esses modelos são de código aberto.

No entanto, os desenvolvedores alertam que esses são modelos de software, não robôs físicos, e a implementação prática em ambientes domésticos ainda levará anos. A Alibaba ainda não anunciou preços, cronogramas ou planos de pilotos além de clientes potenciais.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado