Alibaba apresentou modelos de IA para gestão de robôs - ForkLog

Tool_AI# Alibaba apresentou Modelos de IA para gestão de robôs

Alibaba apresentou o Qwen-Robot Suite — um conjunto de modelos de IA para robôs e tarefas em ambientes físicos: Qwen-RobotNav para navegação, Qwen-RobotManip para ações com objetos e Qwen-RobotWorld para previsão do desenvolvimento da cena. A equipa descreveu o projeto como «um stack completo para inteligência incorporada».

📣 Apresentando o Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, três modelos fundamentais, um stack completo para inteligência incorporada.

🧭 Qwen-RobotNav — a porta de entrada para mobilidade.
• Une 5 tarefas de navegação num único modelo: seguimento de instruções, objetivo de ponto,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) 16 de junho de 2026

Refere-se a modelos de software que devem ajudar agentes físicos a perceber o ambiente, planear ações e executar comandos em linguagem natural. O Qwen-Robot Suite já está a passar por testes piloto com clientes corporativos da Alibaba Cloud na área de robótica.

Por que a Alibaba está a levar o Qwen para o mundo físico

Modelos de linguagem grande e multimodais já conseguem trabalhar com texto, imagens, vídeos e fala, mas isso não é suficiente para robôs. Os agentes físicos precisam não só de entender comandos, mas de traduzi-los em movimento, considerar o espaço, as propriedades dos objetos, as limitações dos sensores e as consequências das ações.

A Alibaba chama a isto de direção de IA física, ou «IA incorporada». Nesta abordagem, o modelo deve trabalhar não só com dados digitais, mas também com o ambiente físico: mover-se, encontrar objetos, controlar manipuladores e prever o que acontecerá após uma ação.

Qwen-RobotNav: cinco tarefas de navegação numa única modelo

Qwen-RobotNav é responsável pela navegação. O modelo combina cinco grupos de tarefas:

  • seguir instruções;
  • deslocar-se até ao ponto definido;
  • procurar objetos;
  • acompanhar o objetivo;
  • condução autónoma.

Segundo a Alibaba, o Qwen-RobotNav foi construído com base no Qwen3-VL e treinado com 15,6 milhões de exemplos relacionados com planeamento de rotas e raciocínio visual-linguístico.

A empresa afirmou uma taxa de sucesso de 76,5% no VLN-CE RxR e 90% no EVT-Bench. A Alibaba também esclareceu que o modelo pode atuar como ferramenta para sistemas de agentes mais complexos: o modelo de nível superior planeia a tarefa, enquanto o Qwen-RobotNav responde pelo deslocamento.

Fonte: Qwen. Nas demonstrações, a Alibaba descreve cenários como procurar um objeto perdido numa sala ou verificar se um determinado item está aberto numa instalação. Nestas tarefas, o robô não só deve mover-se, mas também recolher provas visuais e devolver a resposta ao utilizador.

Qwen-RobotManip: ações com objetos

Qwen-RobotManip destina-se a ações físicas com objetos. O modelo deve ajudar os robôs a pegar, mover e colocar objetos, bem como transferir habilidades entre diferentes tipos de dispositivos.

Fonte: Qwen-RobotManip. Um dos principais problemas na robótica é que os robôs descrevem ações de formas diferentes. Manipuladores, plataformas de duas mãos, robôs com pinças ou sistemas móveis usam coordenadas, articulações e formatos de comandos distintos. O Qwen-RobotManip tenta unificar esses dados, de modo que o treino num tipo de robô beneficie outro.

Para treinar, a Alibaba utilizou mais de 38.100 horas de dados. Este volume inclui 11.320 horas de dados abertos de robótica, 1.933 horas de vídeos de ações humanas em primeira pessoa e 24.808 horas de demonstrações robóticas sintéticas criadas a partir desses vídeos.

A empresa afirmou que o modelo conquistou o primeiro lugar no RoboChallenge Table30 v1 na categoria de modelos universais. Segundo a Alibaba, o Qwen-RobotManip também demonstrou resistência a novas instruções, objetos desconhecidos e transferência de habilidades entre diferentes robôs.

Qwen-RobotWorld: modelo de mundo para robôs

Qwen-RobotWorld é um modelo de vídeo do mundo, controlado por linguagem natural. Deve prever como a cena evoluirá após uma ação dada.

Fonte: Qwen-RobotWorld. Por exemplo, o modelo recebe a observação atual e uma instrução textual, e depois gera um estado futuro provável do ambiente. Esta abordagem pode ser usada para manipulação, condução autónoma, navegação, planeamento e criação de dados sintéticos de treino para robôs.

Para treinar o Qwen-RobotWorld, a equipa reuniu um corpus chamado Embodied World Knowledge. Inclui 8,6 milhões de pares «vídeo-texto» e mais de 200 milhões de quadros, cobrindo mais de 20 tipos de plataformas robóticas e mais de 500 categorias de ações.

A Alibaba afirmou que o Qwen-RobotWorld conquistou o primeiro lugar no EWMBench e DreamGen Bench, além de superar todos os modelos abertos no WorldModelBench e PBench. No documento técnico, também se afirma que o modelo mostra alta coerência com as leis físicas básicas — movimento, conservação de massa, líquidos e gravidade.

Ainda estamos longe de robôs massivos

Apesar dos resultados anunciados, o Qwen-Robot Suite ainda é um conjunto de modelos, e não uma plataforma robótica de consumo pronta. A implementação real enfrenta ruído de sensores, desgaste de atuadores, situações imprevistas, erros de perceção e um grande número de cenários raros. Muitos benchmarks usados para comparar esses sistemas são realizados em simulação ou em condições experimentais limitadas.

A Alibaba também não revelou o custo de acesso, prazos de lançamento público ou lista de clientes que já testam o Qwen-Robot Suite.

Lembre-se que, em abril, a Alibaba Cloud apresentou o modelo de agente Qwen3.6-Plus, com janela de contexto de 1 milhão de tokens e suporte a ferramentas externas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado