Alibaba apresentou modelos de IA para controle de robôs - ForkLog

Tool_AI# Alibaba apresentou modelos de IA para gerenciamento de robôs

Alibaba apresentou o Qwen-Robot Suite — um conjunto de modelos de IA para robôs e tarefas em ambientes físicos: Qwen-RobotNav para navegação, Qwen-RobotManip para ações com objetos e Qwen-RobotWorld para previsão do desenvolvimento da cena. A equipe descreveu o projeto como “um stack completo para inteligência incorporada”.

📣 Apresentando o Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, três modelos fundamentais, um stack completo para inteligência incorporada.

🧭 Qwen-RobotNav — a porta de entrada para mobilidade.
• Unifica 5 tarefas de navegação em um único modelo: seguir instruções, ponto-alvo,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) 16 de junho de 2026

Refere-se a modelos de software que devem ajudar agentes físicos a perceber o ambiente ao redor, planejar ações e executar comandos em linguagem natural. O Qwen-Robot Suite já passa por testes piloto com clientes corporativos da Alibaba Cloud na área de robótica.

Por que a Alibaba está levando o Qwen para o mundo físico

Modelos de linguagem grande e multimodais já sabem trabalhar com texto, imagens, vídeos e fala, mas isso não é suficiente para robôs. Os agentes físicos precisam não apenas entender comandos, mas traduzi-los em movimento, considerar o espaço, as propriedades dos objetos, as limitações dos sensores e as consequências das ações.

A Alibaba chama isso de direção de IA física, ou “IA incorporada”. Nessa abordagem, o modelo deve trabalhar não apenas com dados digitais, mas também com o ambiente físico: mover-se, encontrar objetos, controlar manipuladores e prever o que acontecerá após uma ação.

Qwen-RobotNav: cinco tarefas de navegação em um único modelo

Qwen-RobotNav é responsável pela navegação. O modelo combina cinco grupos de tarefas:

  • seguir instruções;
  • mover-se até um ponto definido;
  • procurar objetos;
  • rastrear um alvo;
  • condução autônoma.

Segundo a Alibaba, o Qwen-RobotNav é baseado no Qwen3-VL e treinado com 15,6 milhões de exemplos relacionados ao planejamento de rotas e raciocínio visual-linguístico.

A empresa afirmou uma taxa de sucesso de 76,5% no VLN-CE RxR e 90% no EVT-Bench. A Alibaba também esclareceu que o modelo pode atuar como uma ferramenta para sistemas de agentes maiores: o modelo de alto nível planeja a tarefa, enquanto o Qwen-RobotNav responde pelo deslocamento.

Fonte: Qwen. Em demonstrações, a Alibaba descreve cenários como procurar um objeto perdido em um ambiente ou verificar se um item específico está aberto em um prédio. Nessas tarefas, o robô não deve apenas se mover, mas coletar evidências visuais e retornar uma resposta ao usuário.

Qwen-RobotManip: ações com objetos

Qwen-RobotManip é destinada a ações físicas com objetos. O modelo deve ajudar robôs a pegar, mover e posicionar itens, além de transferir habilidades entre diferentes tipos de dispositivos.

Fonte: Qwen-RobotManip.Uma das principais dificuldades na robótica é que os robôs descrevem ações de formas diferentes. Manipuladores, plataformas de duas mãos, robôs com pinças ou sistemas móveis usam coordenadas, articulações e formatos de comando distintos. O Qwen-RobotManip tenta unificar esses dados, para que o treinamento em um tipo de robô ajude outro.

Para treinar, a Alibaba usou mais de 38.100 horas de dados. Essa quantidade inclui 11.320 horas de dados abertos de robótica, 1.933 horas de vídeos de ações humanas em primeira pessoa e 24.808 horas de demonstrações robóticas sintéticas criadas a partir desses vídeos.

A empresa afirmou que o modelo conquistou o primeiro lugar no RoboChallenge Table30 v1 na categoria de modelos universais. Segundo a Alibaba, o Qwen-RobotManip também demonstrou resistência a novas instruções, objetos desconhecidos e transferência de habilidades entre diferentes robôs.

Qwen-RobotWorld: modelo de mundo para robôs

Qwen-RobotWorld é um modelo de vídeo do mundo, controlado por linguagem natural. Ele deve prever como a cena se desenvolverá após uma ação dada.

Fonte: Qwen-RobotWorld.Por exemplo, o modelo recebe a observação atual e uma instrução textual, e então gera um estado futuro provável do ambiente. Essa abordagem pode ser usada para manipulação, condução autônoma, navegação, planejamento e criação de dados sintéticos de treinamento para robôs.

Para treinar o Qwen-RobotWorld, a equipe reuniu o corpus Embodied World Knowledge. Ele inclui 8,6 milhões de pares “vídeo-texto” e mais de 200 milhões de quadros, abrangendo mais de 20 tipos de plataformas robóticas e mais de 500 categorias de ações.

A Alibaba afirmou que o Qwen-RobotWorld conquistou o primeiro lugar no EWMBench e DreamGen Bench, além de superar todos os modelos abertos no WorldModelBench e PBench. No documento técnico, também é afirmado que o modelo demonstra alta coerência com as leis físicas básicas — movimento, conservação de massa, líquidos e gravidade.

Ainda estamos longe de robôs em massa

Apesar dos resultados anunciados, o Qwen-Robot Suite ainda é um conjunto de modelos, e não uma plataforma robótica de consumo pronta. A implementação real enfrenta ruído de sensores, desgaste de atuadores, situações não padronizadas, erros de percepção e uma grande quantidade de cenários raros. Muitos benchmarks usados para comparar esses sistemas ocorrem em simulação ou em condições experimentais limitadas.

A Alibaba também não revelou o custo de acesso, prazos de lançamento público ou a lista de clientes que já testam o Qwen-Robot Suite.

Lembre-se, em abril, a Alibaba Cloud apresentou o modelo de agente Qwen3.6-Plus, com janela de contexto de 1 milhão de tokens e suporte a ferramentas externas.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado