Diálogo variável independente CTO Wang Hao: Por que o "Santo Graal" da inteligência incorporada é a família?

Question

Autor DaleEditor: Dong Yuqing“A família é, de facto, o Santo Graal da inteligência incorporada.” Em 30 de Março de 2026, de manhã, na Escola Zero One, em Shenzhen, o cofundador e CTO da empresa de robótica zi-variable, Wang Hao, apresentou este juízo numa entrevista, incluindo uma realizada pela Phoenix Net Technology. Naquele momento, decorria o primeiro Congresso de Desenvolvedores de Inteligência Incorporada (EAIDC 2026). As 20 equipas de topo que chegavam à final reuniam-se ali, e os participantes tinham apenas três dias para concluir todo o processo de ponta a ponta, desde a recolha de dados do zero, passando pelo treino do modelo, até ao deployment numa unidade real.Em 2026, quando quase todos os pares estavam a dar prioridade à obtenção de encomendas para cenários industriais, a zi-variable escolheu um caminho mais ousado. Em Março, a zi-variable anunciou uma parceria com a 58同城 (58-to-city). A partir da plataforma 58到家, eram escalados aleatoriamente ajudantes e robôs para formar equipas, que, em conjunto, prestavam serviços de apoio doméstico; a iniciativa já abriu um piloto em Shenzhen. A família — o cenário com menor nível de padronização e o mais aberto em termos de ambiente — está a tornar-se o campo de batalha-chave na mente da zi-variable para “o caminho para robôs generalistas”.**01 Uma competição que traz os robôs de volta ao mundo real**O regulamento desta edição do EAIDC 2026 foi concebido com bastante engenho. Todas as equipas participantes utilizam o mesmo tipo de plataforma de hardware e, no prazo de três dias, conseguem sair do estado de contacto inicial com a base de modelos de inteligência incorporada e de depuração do hardware real, completando todo o fluxo do recolhimento de dados até ao deployment no mundo real. Normalmente, para laboratórios de investigação profissionais concluírem uma montagem semelhante, são necessários pelo menos 6 meses.Na observação de Wang Hao, no primeiro dia da competição, ainda durante a tarde, começou a surgir uma divisão claramente evidente. “No primeiro dia de abertura de manhã, à noite alguns concorrentes ainda estavam a depurar o ambiente, e outros já tinham resultados. Há uma grande diferença.” Mais tarde, ele descobriu que, face às equipas que não mexiam nas mãos, aquelas que faziam avaliações com frequência, observavam com cuidado os dados e o hardware, destacavam-se mais. “Toda a inteligência incorporada é aprendizagem por interação: ao testar, e também à medida que as pessoas observam, a máquina encontra problemas. Quanto mais provável for encontrar soluções para a complexidade real do mundo físico.”Um concorrente, mais tarde, recordou que, quando se depararam inicialmente com a tarefa de “colocar o aro no poste”, a taxa de sucesso era apenas de 20% a 30%; após iterações contínuas, foi aumentando progressivamente para 60% a 70%.A competição também definiu uma classificação A e uma classificação B — a classificação A tem um ambiente controlável, para que os concorrentes validem rapidamente a capacidade do modelo; a classificação B é um “caixa-preta” total, testando a capacidade de generalização do modelo sob mudanças na iluminação, no fundo, no objecto de operação e na posição de operação. Wang Hao disse que este é o propósito com que fazem a competição: “Queremos que, através desta competição, todo o projecto open source consiga reduzir verdadeiramente a barreira de utilização para os programadores, e estabelecer uma interface relativamente mais genérica e standard”.Numa indústria de inteligência incorporada que depende há muito tempo de avaliação em simulação, embora os ambientes simulados acelerem a iteração, é difícil reproduzir a complexidade do mundo real; a diferença de sim2real (métodos de transferência tecnológica de ambientes simulados para o mundo real) existe sempre. Wang Hao admitiu: “Com dependência prolongada de avaliação em simulação, é inevitável que se oculte o verdadeiro limite da capacidade do modelo.” E esta “arena de demonstração com hardware real” do EAIDC tenta puxar de novo a avaliação, o treino e a recolha de dados para o mesmo mundo real.**02 Uma “nova história” fim-a-fim?**Desde o início, a zi-variable escolheu a via de “um modelo grande fim-a-fim com cérebro e pequeno cérebro unificados”. Em termos de arquitectura técnica, a equipa está a tentar fundir o modelo de mundo e o modelo VLA (visão-linguagem-acção) num único enquadramento conjunto.Wang Hao explicou a lógica subjacente desta via. “A base de treino do grande modelo de linguagem ainda tem de ser usada. Só que queremos trazer a linguagem e a acção para um mesmo espaço, e não — como antes — fazer com que toda a visão sirva a linguagem.” A descrição por linguagem é muito ampla; a interacção do mundo físico acontece em escalas de centímetros e segundos. Entre os dois há uma grande lacuna de informação. “Se conseguirmos adoptar uma forma nativa multimodal, a acção pode ter manifestações muito claras tanto no macro como no micro. Isso transforma a visão, que antes era apenas observação estática, numa capacidade de fazer com que a visão compreenda o movimento.”Isto contrasta com muitos desenhos simplificados de modelos VLA actuais. Observadores do sector apontaram que muitos modelos incorporados ainda tendem para simplificação, e a maioria dos modelos VLA ainda depende de entrada de imagem de um único frame.Wang Hao considera que, o maior desafio dos modelos fim-a-fim está na complexidade e nas exigências de escala do treino. “Se não tiveres estas duas condições, escolher um modelo fim-a-fim não significa necessariamente que será melhor do que escolher um modelo pequeno por domínio específico ou um modelo em camadas. Fim-a-fim implica que tens de ter um efeito de escala: a quantidade de dados e o número de parâmetros do modelo têm de aumentar.” Além disso, a avaliação da inteligência incorporada é ainda mais delicada do que a dos grandes modelos de linguagem: “os grandes modelos de linguagem podem observar a curva de loss; para a inteligência incorporada, muitas vezes não é assim. O loss não reflecte o desempenho no mundo real, porque o mundo real é um sistema em ciclo fechado.”Outra estratégia central da zi-variable é manter a recolha de dados reais em hardware. Wang Hao disse: “Em todas as aprendizagens interactiva e por reforço, os dados mais importantes vêm do hardware real. Esta recolha de dados não vai parar; vai continuar.” Mas ele também revelou que, em 2026, haverá uma grande mudança — “cada vez mais, dependerá de recolher dados através de uma forma vestível do ser humano ou de um modo Ego-Cêntrico”.A construção de um ciclo fechado de dados é outra proposição-chave da zi-variable. Wang Hao disse: “Começar cedo a fazer com colaboração homem-máquina, para que o ciclo fechado corra. Primeiro, usar dados de alta qualidade e treino em grande escala para construir um modelo de base. Embora não resolva todas as tarefas, deve ser colocado no ambiente real para começar. Se houver coisas que não correm bem, a pessoa assume o controlo e ajuda a recuperar dos erros. Esses dados também passam a ser uma fonte muito valiosa.” Ele descreve um sistema em que a avaliação, o treino e a recolha de dados são concluídos no mesmo processo.**03 Porque é a família?**De facto, no sector, é amplamente entendido que a aplicação madura de cenários familiares requer esperar 5 a 10 anos; a maioria das empresas, ao comercializar, tende mais para cenários industriais — ambiente controlável, tarefas únicas e ROI calculável. No início de 2026, surgiram várias empresas de robôs com avaliação de dezenas de mil milhões. Mas, no sentido dos serviços domésticos, ainda não há, neste momento, um interveniente verdadeiramente maduro.Wang Hao apresentou uma abordagem diferente para resolver o problema: “Família representa o ambiente mais aberto e o conjunto de tarefas mais amplo. Ao resolver as tarefas domésticas, significa que o modelo consegue concretizar uma generalização total. Só enfrentando logo de início o cenário mais complexo é que conseguimos elevar o nível de inteligência do modelo. Não importa quando começas, quanto mais cedo, melhor. Esse é o mais importante.”No entanto, entrar em cenários familiares tem alguns desafios-chave. Um é a capacidade de generalização zero-shot — o modelo tem de explorar caminhos de sucesso através de inferência, e não depender de treino prévio. “No início, ao entrar numa família, não há muitas oportunidades de treinar o modelo. Nesta altura, é preciso estimular a capacidade de inferência do modelo, para que, no cenário doméstico, através da inferência, ele consiga explorar exemplos de sucesso.” O segundo é a precisão da operação de longo alcance. “Agora que o modelo de base entra nas famílias, em muitas tarefas existe uma tendência de conclusão ou intenção de acção. Por exemplo, pode haver a tendência de estender para agarrar algo em qualquer objecto. Mas a precisão não é suficiente; quando surgem tarefas longas e complexas, os erros acumulam-se e acabam por falhar.”Wang Hao explicou que há duas chaves para resolver o problema da precisão em operações de longo alcance. A primeira é estimular a capacidade de inferência do modelo. “Fazer com que a linguagem se combine com a visão para fazer inferência. Linguagem, visão e acção formam uma cadeia de pensamento no mesmo nível, para que o robô planeie e reflicta por si.” A segunda é fazer aprendizagem por reforço num contexto de hardware real em grande escala. “Manter-se dentro do padrão do modelo de base para alcançar uma precisão espacial mais elevada.”Wang Hao estima que tarefas como limpeza e arrumação “comuns” possam alcançar autonomia total em 1 a 2 anos. “Mas para alcançar o ciclo fechado em todas as tarefas domésticas, o tempo pode ser um pouco mais longo.”Isto corresponde à afirmação do CEO da zi-variable, Wang Qian. Wang Qian já mencionara, numa entrevista, que ainda dentro do ano se poderia ver os robôs a concretizarem a comercialização com um ROI positivo. O ritmo de avanço nos cenários familiares, evidentemente, é mais lento — mas também mais duradouro.Voltando aos tópicos controversos que a via de inteligência incorporada mais discute no momento: a escolha da rota técnica é mais leve ou mais pesada do que a comercialização?“No que diz respeito à inteligência incorporada, para obter resultados sacrificando a tecnologia em nome do negócio, o tecto de resultados não será elevado. O verdadeiro tecto elevado é a coordenação entre negócio e tecnologia: com a tecnologia a impulsionar progressivamente o desenvolvimento do negócio.” Wang Hao acredita que a linha principal da zi-variable é fazer com que o modelo de base continue a iterar “para a frente”. “Mas há um ponto: não fazer demasiados sistemas de modelo em cenários específicos. Para a implementação, não depender de muitas compensações de engenharia. Por exemplo, ao detectar que o robô tem uma zona cega na visão, faz-se um pequeno modelo para a detecção. A curto prazo isso pode ajudar a acelerar a implementação, mas a longo prazo é prejudicial para a melhoria do modelo de base.”Esta insistência corresponde à lógica da zi-variable ao escolher cenários — o primeiro critério para escolher cenários é ver se consegue retroalimentar a capacidade do modelo de base. “Não é dizer que primeiro fazes a tecnologia totalmente generalizada e depois consideras os cenários. Pelo contrário: são os cenários que te fazem iterar; a iteração fortalece o modelo de base; e um modelo de base mais forte retroalimenta o negócio. Só assim se forma um ciclo fechado completo.”Ele revelou que o investimento para construir modelos de base tem sido sempre muito alto. Desde o primeiro dia da criação da empresa, fizeram investimento massivo em dados, capacidade de computação e infra-estrutura. “Assim que se estabelece um efeito de escala, quando investes 10 vezes os recursos para obter a liderança, o efeito de concentração de recursos fica cada vez mais evidente. Vais ultrapassar os outros em velocidade com uma vantagem em ordens de grandeza. Quanto mais cedo começares, mais vantagem tens; quanto mais tarde começares, mais difícil fica.”     (Editor: Liu Jing HZ010）  		          【Declaração de isenção de responsabilidade】Este artigo reflecte apenas as opiniões do próprio autor, não tem qualquer relação com a Hexun. O website da Hexun mantém neutralidade quanto às afirmações e juízos apresentados no texto, não fornece qualquer garantia explícita ou implícita sobre a exactidão, a fiabilidade ou a integridade do conteúdo incluído. Peço aos leitores que utilizem apenas como referência e que assumam toda a responsabilidade por si próprios. Endereço de e-mail: news_center@staff.hexun.com            Denunciar

Diálogo variável independente CTO Wang Hao: Por que o "Santo Graal" da inteligência incorporada é a família?

Tópicos em destaque

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Gate Fun tendência

dogd

doged

Angh

Angh

ngab owi

OWI

30

SDJ

Turemp

Dunold Turemp

Fixar