Conversa com Tang Wenbin, da OriginAI: A rota pura de "Modelo do Mundo" não é viável

Uma “guerra de dados” silenciosa sobre inteligência incorporada está a começar.

Em janeiro deste ano, o Centro de Inovação em Robôs Humanóides de Hubei entregou à Zhiyuan Robotics milhares de horas de dados de treino, concluindo a primeira transação de dados personalizada de robôs humanóides no país.

No setor, a gigante JD.com anunciou recentemente o objetivo de criar o maior centro de recolha de dados de inteligência incorporada do mundo, com o objetivo de mobilizar mais de 100 mil funcionários internos e até 500 mil externos, numa estratégia sem precedentes de “batalha de multidões”.

Olhando para o exterior, a Robotis, uma empresa sul-coreana de robótica, estabeleceu uma filial no Uzbequistão em janeiro, com planos de construir uma enorme “fábrica de dados” numa área de 110.000 metros quadrados para recolher dados de comportamento de robôs.

Transações personalizadas por hora, mobilização de centenas de milhares de pessoas, construção de fábricas na Ásia Central — todas estas ações refletem a pesada “ansiedade de dados” na indústria de inteligência incorporada.

Ao contrário dos grandes modelos de linguagem treinados em corpus de internet, a inteligência incorporada precisa compreender o mundo e interagir com ele, o que impõe requisitos mais elevados quanto à autenticidade, modalidades e diversidade dos dados.

Este é um dos desafios atuais que Tang Wenbin, fundador e CEO da Yuanli Lingji, está a enfrentar.

Revisando o seu percurso, Tang Wenbin é mais conhecido como cofundador e CTO da Megvii, uma estrela unicórnio na última onda de IA.

A Yuanli Lingji, com apenas um ano de existência, já arrecadou mais de 1 bilhão de yuans, recebendo investimentos de grandes instituições como Alibaba, NIO, Junlian e Qiming.

Atualmente, a Yuanli Lingji lançou o seu primeiro grande modelo nativo de inteligência incorporada, o DM0, e estabeleceu uma parceria estratégica com Huachin Technology para a produção em massa do robô de recolha de dados DOS‑W1.

Após a experiência de implementação da última onda de IA, Tang Wenbin passou a ter maior reverência pela indústria.

Numa entrevista recente com Wallstreetcn e Tech24, Tang compartilhou a sua abordagem à recolha de dados: não dependemos de uma única fonte, mas de uma combinação de “qualidade✖quantidade✖diversidade” para uma recolha distribuída, preenchendo assim o espaço de capacidades dos robôs.

Quanto à geração de dados através de modelos de mundo, permitindo que os robôs aprendam por imitação, Tang considera que essa abordagem é difícil de concretizar. Ele defende que uma estratégia mais viável é a união de modelos de mundo com modelos VLA (visão-língua-ação), ou seja, que possam não só prever o futuro, mas também deduzir ações precisas com base nisso.

Enquanto os atores do setor acumulam dados de várias formas, o mercado aguarda para ver qual será a estratégia vencedora.

Segue a transcrição da entrevista.

Detalhes sobre a recolha de dados

Tech24: Pode partilhar a sua abordagem à recolha de dados?

Tang Wenbin: Atualmente, seguimos uma abordagem de reforço por imitação.

A imitação envolve simular a distribuição de dados. O nosso objetivo é preencher o espaço de capacidades dos robôs com o máximo de variedade possível, para que eles possam ver muitas coisas diferentes. O foco está na capacidade de lidar com cenários não vistos, e o valor dos dados reside exatamente nisso. Assim, a nossa recolha centra-se em ambientes abertos e cenários reais.

Queremos manter a alta qualidade dos dados, ao mesmo tempo que os preenche de forma a explorar ao máximo esse espaço, por isso vejo os dados como uma combinação de “qualidade✖quantidade✖diversidade”.

Tech24: Como é que recolhem esses dados?

Tang Wenbin: Na verdade, não dependemos de uma única fonte de dados, pois isso não faz sentido. Utilizamos uma abordagem de combinação. Para dados de máquinas reais, recolhemos através de sensores calibrados, incluindo exoesqueletos, embora o custo seja elevado.

Também recolhemos dados de perspectivas sem corpo e de primeira pessoa, formando conjuntos de dados maiores — uma espécie de intermédio entre dados reais e sintéticos.

Além disso, utilizamos dados da internet, com custos de recolha mais baixos.

Tech24: Pode explicar especificamente a recolha sem corpo?

Tang Wenbin: Sem corpo significa que pode ser um luva ou uma pinça manual, sem braço mecânico ou corpo de robô, ou seja, apenas um dispositivo terminal. Registrei a posição e o estado desse dispositivo terminal, sendo esta uma técnica chamada UMI.

Hoje, também usamos dados de primeira pessoa, como gravações com óculos que mostram o processo de operação, uma forma de recolha sem corpo.

Tech24: Como lida com a privacidade dos dados de utilizadores de óculos inteligentes?

Tang Wenbin: É verdade, como utilizador de óculos, também não quero partilhar os meus dados. Mas para treino, podemos contratar terceiros para recolher esses dados, gravando o fluxo de trabalho durante o uso diário.

Queremos também que os óculos tenham funcionalidades mais avançadas, como visão estereoscópica e múltiplas tarefas. No futuro, podemos acrescentar dispositivos como pulseiras ou luvas para recolha de dados.

Assim, a nossa recolha é diversificada: a primeira categoria são os próprios robôs, que podem ser controlados remotamente; a segunda, dispositivos sem corpo, como pinças ou dispositivos “corpo humano + extremidade do robô”; a terceira, recolha de dados do corpo humano; e a quarta, descrição do mundo físico.

Tech24: Nos sensores finais, recolhem principalmente dados de força?

Tang Wenbin: Não só força, queremos dados multimodais, incluindo visão adicional.

Na prática, devido à possível obstrução por parte do braço, podemos montar câmeras nos olhos, nos pulsos, com várias câmeras para múltiplos ângulos.

Tech24: Essa recolha é cara?

Tang Wenbin: É uma questão complexa de qualidade, quantidade e diversidade de dados. Para recolher todos os módulos, o custo é alto. Por isso, adotamos uma estratégia distribuída, garantindo a integridade de alguns dados, enquanto outros são recolhidos de forma mais rápida e económica, mesmo que menos completos.

É uma questão de equilíbrio. Temos nossas próprias ferramentas de recolha e colaboramos com outros setores.

Tech24: Em fevereiro, colaboraram com a Huachin para lançar um robô de recolha de dados. Pode falar sobre ele?

Tang Wenbin: Este robô é usado principalmente em cenários de investigação, semelhante ao ALOHA (sistema de hardware de baixo custo para teleoperação bimanual). Existem outros no mercado, mas há dois grandes problemas:

Primeiro, fiabilidade — muitos produtos apresentam falhas frequentes, afetando a pesquisa e a eficiência. Ainda não conseguimos garantir estabilidade a longo prazo, por isso, simplificámos a manutenção, com design modular e desmontável. Se uma peça avariar, pode-se trocar rapidamente, muitas conexões são de rotação, permitindo reparos em 30 segundos.

Segundo, o custo, que ainda é elevado. Com a Huachin, criámos uma versão semelhante ao ALOHA, com operação mestre-escravo e arrastar-e-soltar, focada em reparo rápido e preço acessível. (nota: operação mestre-escravo refere-se ao controlo remoto em tempo real de braços múltiplos, com reprodução de movimentos de baixa latência).

Tech24: Empresas compraram esse robô para recolha de dados?

Tang Wenbin: Sim, os desafios do setor são semelhantes, por isso, muitas empresas compram produtos de colegas para usar em conjunto.

A rota do modelo de mundo não funciona

Tech24: Pode partilhar a sua opinião sobre modelos de mundo e VLA?

Tang Wenbin: É importante distinguir duas coisas: compreender o mundo e gerar o mundo são diferentes.

Hoje, os grandes modelos focam na compreensão do mundo. Os modelos de mundo tentam prever o futuro, ou seja, a próxima cena, enquanto o VLA envolve interação com o mundo.

Embora tenham pontos em comum, abordam problemas de formas diferentes.

A nossa estratégia ideal é a combinação de ambos. Assim, podemos entender e gerar conteúdo, bem como interagir com o mundo.

Se conseguimos prever o futuro, podemos deduzir como agir. E se sabemos como agir, podemos prever o que acontecerá a seguir.

Na nossa estrutura atual, o modelo de mundo e o VLA estão unificados, ou seja, queremos um modelo que compreenda o mundo e também preveja o seu desenvolvimento.

Dessa forma, o modelo não só executa ações, mas também prevê como o mundo mudará após essas ações.

Tech24: As estruturas técnicas das empresas do setor diferem da vossa?

Tang Wenbin: De fato, algumas empresas defendem apenas o uso de modelos de mundo. A ideia é gerar dados com esses modelos, permitindo que robôs aprendam por imitação, criando uma fonte de dados infinita.

Mas acho que essa abordagem não funciona, porque se o modelo de mundo já resolve tudo, não há necessidade de gerar dados para treinar robôs.

Outra estratégia comum é prever o futuro do mundo e, a partir daí, deduzir as ações necessárias — ou seja, prever cenários futuros e calcular as ações correspondentes. Essa abordagem é a união de modelos de mundo e VLA, que é o que defendemos.

Tech24: Como é que, na prática, a automação de fábricas de alta automatização afeta a utilização de robôs?

Tang Wenbin: As linhas de produção automatizadas estão bastante maduras. Nosso foco é resolver problemas que antes eram difíceis ou caros de solucionar.

Porém, muitas linhas de produção automatizadas não exigem grande capacidade de generalização, como lidar com diferentes objetos, ambientes ou tarefas. Por exemplo, com poucos produtos, condições de iluminação controladas.

O verdadeiro desafio é lidar com objetos variados, ambientes em constante mudança e múltiplas tarefas.

Por exemplo, na logística, os robôs fazem transporte, mas não lidam bem com operações manuais, que requerem alta generalização.

Se compra uma garrafa de refrigerante e um pacote de batatas, o operador deve embalar cada um de forma diferente. Com a variedade de produtos e mudanças de ambiente, automatizar essa tarefa é difícil.

Na embalagem, por exemplo, ao receber um frasco de gel de banho, há uma película plástica na boca para evitar vazamentos. Atualmente, os operadores usam experiência para envolver com filme plástico e colocar em sacos, colando etiquetas — tarefas difíceis de automatizar.

Estamos a fazer alguns testes na logística e na indústria.

Tech24: Vocês preferem desenvolver em cenários específicos ou expandir para múltiplos?

Tang Wenbin: Depende. Observando o desenvolvimento de grandes modelos, há uma tendência clara: modelos específicos não têm verdadeira capacidade de generalização. Portanto, é fundamental buscar uma generalização mais ampla.

Por outro lado, na implementação prática, é necessário focar em cada cenário, um de cada vez.

Nosso foco interno é garantir que a solução seja fechada, resolvendo todos os problemas e exceções do cliente, e que seja economicamente viável.

Só assim o cliente considerará uma implementação em escala. Cada projeto é uma compreensão clara do valor para o cliente, garantindo esses dois pontos. É um processo de evolução gradual.

Nosso conceito é que há uma relação de 45 graus entre desenvolvimento de modelos e aplicação prática, ou seja, estão relacionados, mas não totalmente dependentes.

Claro que queremos que nossos modelos evoluam para uma maior generalização.

Respeitar os cenários

Tech24: Você defende uma abordagem de robôs universais?

Tang Wenbin: Pessoalmente, acho que os modelos podem ser universais, mas o hardware é difícil de fazer.

Nossas mãos são muito versáteis: podem fazer operações delicadas ou levantar 20 kg, ou até 50 kg.

Porém, devido às limitações físicas e de materiais, um braço mecânico para objetos de 2 kg é diferente de um para 20 kg, pois a densidade de potência é distinta.

Se usarmos um design universal para diferentes cenários, facilmente encontramos problemas de sub ou sobre-dimensionamento.

Por exemplo, braços com rodas, quando o centro de gravidade é alto, podem ser rápidos, mas difíceis de parar, podendo tombar.

Em alguns casos, é melhor ficar parado, deixando o veículo móvel trazer o objeto.

Assim, há risco de excesso de design.

Nosso princípio é criar modelos com uma certa universalidade, capazes de se adaptar a diferentes plataformas de hardware.

Tech24: Os investidores valorizam mais a capacidade de modelos ou de hardware?

Tang Wenbin: Valorizamos ambos. Nosso diferencial é que não só desenvolvemos cenários de robótica, mas também temos uma compreensão profunda de modelos. Temos experiência na área de logística da Megvii e uma equipa especializada em otimização de modelos.

Tech24: Algumas empresas do setor conhecem bem as necessidades do seu mercado, mas vocês, que começaram pelos modelos, podem ter menos conhecimento dos cenários?

Tang Wenbin: Na verdade, na Megvii já trabalhámos com muitos cenários, por isso, acho que somos uma equipa bem treinada.

É uma questão de mentalidade: há duas abordagens na robótica — uma mais técnica, outra mais de cenário. Nós estamos no meio.

Quem foca só na técnica faz muitas suposições sobre cenários, achando que conhece tudo. Mas os detalhes do cenário real escondem-se nos pormenores. Quando há problemas, o fluxo de produção não pode parar, por isso, é preciso um bom tratamento de exceções.

Por isso, quem trabalha com tecnologia deve ter respeito pelos cenários.

Por outro lado, há muitos problemas na indústria. Muitos colegas inicialmente acham que a tecnologia resolve tudo, mas quando percebem que não, ficam desanimados e voltam a métodos tradicionais baseados em regras.

Hoje, o desenvolvimento de modelos está numa fase intermediária, com uma curva de progresso rápida.

Precisamos de pessoas que entendam os cenários, algoritmos e a velocidade de evolução, e que possam ajudar a iniciar projetos rapidamente.

Tudo o que fazemos visa atender às necessidades. Temos limitações na nossa visão, por isso, defendemos o estudo amplo e múltiplas perspetivas, mas também temos critérios próprios para escolher cenários sustentáveis.

Tech24: Como definem o seu público-alvo? Empresas de robótica ou aplicadores de cenários?

Tang Wenbin: Ainda focamos nos aplicadores de cenários.

Honestamente, tanto no mercado nacional como internacional, os modelos utilizados ainda não estão maduros. Ainda não há uma fase em que um modelo treinado possa ser implantado diretamente em equipamentos de robótica, com uma configuração simples.

Acredito que, enquanto os modelos não estiverem maduros, a integração vertical é essencial para a implementação de cenários.

Se não conseguimos resolver um cenário, não podemos esperar que parceiros ou clientes o façam. Talvez, um dia, criemos nossos próprios cenários verticais, e outros possam usar uma plataforma aberta para colaborar, usando nossos hardwares ou apenas a nossa “mente” para explorar possibilidades.

Tech24: Essa abertura do código é uma forma de convidar mais pessoas a participar?

Tang Wenbin: Sim, há duas razões para abrir o código. Primeiro, queremos que mais pessoas usem o nosso framework e modelos, para explorar mais aplicações e impulsionar a implementação de tecnologia. Segundo, embora o setor esteja em alta, a maturidade dos modelos ainda é inicial, e a troca de experiências é fundamental para o progresso.

Tech24: Sobre o objetivo de 2026 de implantar 1000 dispositivos operacionais por cenário, como está o progresso?

Tang Wenbin: Ainda estamos na fase de testes de prova de conceito. Atingir essa escala ainda depende de melhorias.

Acreditamos no potencial de produção em massa para cenários próprios.

Para que um robô funcione continuamente, é preciso tolerância a falhas. Atualmente, os modelos não atingem 100% de precisão.

Se uma tarefa falhar, como proceder? Precisamos de estratégias para retomar tarefas, recuperar tarefas falhadas, e avaliar o impacto dessas falhas no negócio.

Depois de implementar planos de contingência, é importante avaliar o retorno do investimento (ROI).

Tech24: Os clientes perguntam quanto podem economizar na produção?

Tang Wenbin: Geralmente, perguntam quanto tempo leva a recuperação do investimento.

Se um projeto demora mais de cinco anos a pagar-se, não vale a pena. Se for entre dois e três anos, é uma oportunidade imediata.

Na nossa abordagem B2B, as decisões baseiam-se em análises racionais, calculando quanto a eficiência pode ser aumentada. Por exemplo, prolongar o funcionamento de certas etapas, usar melhor os equipamentos existentes, criando valor para o cliente.

Tech24: Pode dar uma antevisão das próximas atualizações de modelos?

Tang Wenbin: Este ano, o foco será na generalização.

Tech24: Começaram há pouco tempo na inteligência incorporada. Acham que é tarde demais?

Tang Wenbin: Na verdade, há anos que queríamos criar um robô universal. Na altura, achávamos que a tecnologia não estava madura. Mas, com o avanço de grandes modelos como o DeepSeek, fiquei mais confiante.

Tech24: Se tivesse que escolher uma palavra para 2026 na área de inteligência incorporada, qual seria?

Tang Wenbin: Dois termos: uma é a melhoria das capacidades dos modelos; a outra, a operação contínua de cenários.

Os modelos atuais ainda estão na fase inicial, mas evoluem rapidamente. Precisamos melhorar algoritmos, adaptabilidade a objetos, ambientes e tarefas, e a capacidade de generalização. Essa última é fundamental. Quanto aos cenários, um simples projeto piloto não basta; o importante é a operação contínua no mundo real, e já estamos na altura de avançar nesse sentido.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar