Roda de dados ou amostras repetidas? A Physical AI deve se despedir do culto às horas.

TL;DR
· O roboticista Animesh Garg questiona a indústria por usar horas de teleoperação como indicador de capacidade do modelo.
· A recolha de dados robóticos é cara, os dados de implantação vêm frequentemente de cenários estreitos e as amostras repetidas tornam-se rapidamente dispendiosas.
· Podem ser mais valiosos os fracassos de cauda longa, a cobertura de tarefas e as amostras novas, em vez do tempo total de funcionamento.

Animesh Garg, roboticista que foi e é professor associado na Universidade de Toronto e atualmente no Georgia Tech, num artigo intitulado "Moneyball for Physical AI", compara a competição por dados na inteligência incorporada ao momento "Moneyball" na história do basebol.

Ele quer desafiar uma narrativa de financiamento cada vez mais comum: as empresas de robótica, ao acumularem mais teleoperação, mais implantação real e mais horas de funcionamento, podem criar um ciclo virtuoso de dados. Para os investidores, isto não é uma disputa académica. A estrutura de custos, a velocidade de comercialização e as barreiras dos modelos das empresas de inteligência incorporada são muitas vezes embaladas na expressão "ciclo fechado de dados". Se as horas acumuladas não equivalem a progressos efetivos do modelo, o mercado precisa de reavaliar os ativos de dados dessas empresas.

"Horas de dados" podem ser a superstição da taxa de sucesso na indústria robótica

Garg recorre à analogia clássica de "Moneyball". Em 2002, os Oakland Athletics venceram 103 jogos com um dos plantéis mais baratos da liga, não por comprarem jogadores mais caros, mas por descobrirem que o mercado avaliava mal o valor dos jogadores. Os olheiros tradicionais valorizavam a taxa de sucesso, os roubos de base e a postura, mas o indicador que melhor explica a capacidade de marcar pontos é a percentagem de chegadas à base.

Na sua opinião, a IA Física pode estar numa fase semelhante. A indústria reconhece que os dados são essenciais para modelos robóticos universais, mas tende a confundir os indicadores mais fáceis de mostrar com os mais importantes: horas acumuladas de teleoperação, número de trajetórias de demonstração, número de robôs implantados, tempo de funcionamento em cenários de produção.

A forma como os dados robóticos e os dados de texto são fornecidos é diferente. Os grandes modelos de linguagem podem obter enormes quantidades de texto de baixo custo da internet, repositórios de código, livros e páginas web, onde os gargalos estão mais na potência computacional, na limpeza e na eficiência do treino. Os modelos robóticos precisam de dados que incluam interação física, feedback de ação e mudanças ambientais; cada hora de dados úteis tem de ser realmente criada, implicando custos de equipamento, mão de obra, espaço, sensores, tratamento de falhas e segurança.

O roboticista Ken Goldberg já descreveu a diferença entre os dados de robótica e os dados de IA à escala da internet como um "intervalo de dados de 100 000 anos". Mais precisamente, os dados de texto e imagem consumidos pelos grandes modelos visuais-linguísticos contemporâneos, se convertidos em tempo de leitura ou visualização humana, equivalem a cerca de 100 000 anos, enquanto a robótica carece de dados de interação real em escala equivalente. Esta afirmação não estabelece um limiar preciso para os modelos robóticos, mas alerta a indústria: os dados de interação com o mundo real não podem ser obtidos a baixo custo como o texto da web.

É também por isso que Garg se opõe à narrativa da "teleoperação em regime de exploração". Grandes quantidades de teleoperação manual podem de facto gerar amostras densas em ação, mas se a empresa avaliar os dados apenas pelo total de horas, os fundos podem fluir para amostras repetitivas, de baixa dificuldade e baixa densidade de informação, em vez de cenários que mais reduzem a taxa de falhas.

Três tipos de dados compram coisas diferentes

Na classificação de Garg, os dados de IA Física dividem-se em três categorias: dados de observação, dados de intervenção e dados de implantação. Todos podem ser úteis, mas os custos, restrições e densidade de informação variam muito.

A primeira categoria são os dados de observação, como vídeos em primeira ou terceira pessoa. A sua vantagem é o baixo custo e a ampla cobertura, ajudando o modelo a compreender objetos, espaço, resultados de ações e distribuição ambiental. A desvantagem é clara: o modelo pode ver o que acontece a pessoas ou objetos, mas não sabe necessariamente que ação o robô deve executar num determinado estado.

A segunda categoria são os dados de intervenção, ou seja, trajetórias estado-ação geradas por teleoperação, demonstração e intervenção humana. Estes dados são mais diretos para o treino robótico, pois contêm a cadeia "ver o quê, como agir, o que acontece após a ação". O custo é que cada trajetória de alta qualidade tem de ser paga, e os custos de mão de obra e equipamento dificilmente diminuem tão rapidamente como os dados de software.

A terceira categoria são os dados de implantação, ou seja, dados telemétricos gerados quando os robôs operam em cenários comerciais reais. Parece o mais próximo de um ciclo virtuoso comercial: o robô trabalha, ganha dinheiro e gera dados de treino ao mesmo tempo. Mas há uma armadilha estatística.

Os cenários onde a robótica se implanta primeiro são geralmente os de menor variação, processos mais fixos e risco mais controlável, como armazéns altamente estruturados, fábricas ou ambientes de tarefa única. A quantidade de dados de produção pode ser grande, mas a distribuição é estreita e a repetição elevada. Uma vez que o modelo aprende as regularidades locais, cada hora adicional de funcionamento traz menos informação nova.

Os dados de implantação não são inúteis. O que realmente tem valor não são as grandes quantidades de segmentos normais de "tarefa bem-sucedida", mas sim falhas, encravamentos, objetos anómalos, condições de fronteira e perturbações raras. O problema é que estas amostras de cauda longa não aparecem de forma estável ao ritmo desejado pela empresa, e os custos de deteção, filtragem e análise são mais elevados.

Mais dados são úteis, mas amostras repetidas tornam-se rapidamente caras

Garg é cauteloso ao transpor as leis de escala dos modelos de linguagem: o aumento de dados geralmente reduz a perda do modelo, mas com retornos decrescentes. Se as amostras são repetidas, quase repetidas ou vêm da mesma distribuição estreita, a ajuda de novos dados diminui mais rapidamente.

No campo da robótica, este problema é mais intuitivo. Um robô a aprender a agarrar uma caixa padrão de uma prateleira fixa pode beneficiar muito das primeiras mil demonstrações, falhas e correções. Uma vez que a ação, o objeto, a iluminação e o percurso são repetidamente recolhidos, novos dados parecem mais uma cópia de experiência local já aprendida.

No treino de modelos de linguagem já há experiência semelhante: dados repetidos e quase repetidos desperdiçam o orçamento de treino, e a repetição excessiva pode prejudicar a generalização. Garg não aplica diretamente estas conclusões ao treino robótico, mas usa-as para ilustrar uma direção: medir o valor dos dados não pode basear-se apenas na quantidade, mas também na diferença entre as amostras.

Para a IA Física, a diversidade tem pelo menos dois significados. Primeiro, fazer o modelo ver mais objetos, espaços, materiais, iluminação, oclusões e modos de operação. Segundo, evitar que o modelo tenha bom desempenho numa distribuição de tarefas demasiado simples, mas falhe quando confrontado com cenários ligeiramente diferentes.

Os casos de fracasso de cauda longa tornam-se assim cruciais. O mundo físico real não é uniformemente distribuído; anomalias de baixa frequência determinam frequentemente a viabilidade comercial: um objeto ligeiramente desalinhado, embalagem deformada, superfície refletora, deslize da pinça, intervenção humana súbita, sensor que falha, alteração da fricção do chão. Por mais que o modelo tenha bom desempenho em amostras normais, se não lidar com estes eventos de cauda, a implantação será travada por poucas falhas.

O ciclo virtuoso de implantação exige que os cenários iniciais sejam suficientemente "novos"

O que este artigo realmente desafia é a rota comercial comum das empresas de inteligência incorporada: implantar robôs primeiro em cenários estreitos, usar intervenção remota humana para garantir usabilidade, recolher dados de produção, depois treinar modelos mais fortes com esses dados para abrir mais cenários.

Garg chama a esta abordagem "neo-integradora". Ela tenta contornar o custo puro da recolha de dados, colocando robôs na produção comercial, deixando que as receitas operacionais compensem os custos de dados. Comparado com a construção de uma fábrica de teleoperação dedicada, este caminho parece mais eficiente.

Mas o ciclo virtuoso tem um pré-requisito: os dados gerados pelos cenários comerciais iniciais devem ser suficientemente novos e diversos para ajudar o modelo a transferir-se para mais tarefas. Se o cenário de implantação for apenas uma tarefa estreita, de baixa variação e baixa entropia, com forte personalização de engenharia, os dados saturarão rapidamente. A empresa pode não obter um ciclo virtuoso de capacidade universal, mas sim um conjunto de projetos personalizados que exigem integração, manutenção e tratamento de exceções contínuos.

Isto traz dois tipos de custos. Primeiro, cada novo cenário exige investimento em adaptação ambiental, alinhamento de processos, garantias de falha e mecanismos de segurança. Segundo, se a implantação ainda não atingiu o ponto de equilíbrio financeiro, expandir a escala não significa recolher dados a baixo custo, mas sim usar prejuízos para obter grandes quantidades de amostras com baixa novidade.

Portanto, a implantação inicial não é inútil, mas precisa de ser analisada mais detalhadamente: quanta nova cobertura de tarefas trouxe, quantas amostras de falha e anomalia gerou, se essas amostras podem ser transferidas para outros cenários e, após deduzir custos de hardware, mão de obra, manutenção e integração, quanta melhoria do modelo cada dólar comprou.

A narrativa de avaliação não pode perguntar apenas quantas horas foram acumuladas

A sugestão de Garg não é parar de recolher dados, mas sim substituir os critérios de avaliação. As horas acumuladas de funcionamento, teleoperação e número de trajetórias podem ser indicadores operacionais, mas não devem ser equiparados diretamente ao progresso do modelo.

Perguntas mais explicativas incluem: quando é que os dados de uma única tarefa saturam, quanto custa a integração de engenharia para adicionar uma nova tarefa, quantos cenários e clusters de ação diferentes os dados cobrem, quantas amostras de desvio de distribuição e anomalia existem nos dados de produção, e quantos segmentos de sucesso rotineiros devem ser filtrados do fluxo de implantação em vez de continuar a alimentar o modelo.

Correspondendo aos três tipos de dados, a alocação de capital também será diferente. Os dados de observação devem priorizar baixo custo, diversidade e ampla cobertura, para expandir a fronteira da capacidade básica. Os dados caros de teleoperação e demonstração, após atingirem a saturação numa única tarefa, devem redirecionar o orçamento para mais tarefas, em vez de continuar a repetir a mesma ação. Os dados de implantação devem filtrar principalmente falhas, condições de fronteira e amostras fora da distribuição, descartando grandes volumes de registos de funcionamento rotineiros com baixa densidade de informação.

Este conjunto de ideias tem impacto real na narrativa de avaliação da IA Física. Uma empresa com mais robôs, mais tempo de funcionamento e uma equipa maior de teleoperação não representa automaticamente uma barreira de modelo mais forte. A capacidade mais difícil de replicar pode ser a de encontrar continuamente dados de cauda longa de alto valor, determinar quando um certo tipo de dados satura e cobrir mais distribuições de tarefas a menor custo.

No entanto, isto continua a ser uma perspetiva de alocação de capital, não uma conclusão da indústria. Se os modelos robóticos apresentarão retornos de escala semelhantes aos modelos de linguagem, se os dados de implantação podem gerar continuamente nova informação em certos cenários de alta dimensão, e qual a eficiência de transferência entre diferentes tarefas, tudo isso precisará de mais resultados empíricos para ser respondido.

O alerta de Garg incide numa questão mais específica: o "indicador Moneyball" da IA Física pode não ser o número de horas de dados, mas sim as amostras novas compradas por cada dólar. Para as empresas de robótica que ainda contam a história do ciclo virtuoso de dados, o mercado, no final, pode não olhar para o tempo acumulado de funcionamento, mas sim para quanta nova informação esse tempo realmente produziu.

Clique para saber as vagas em aberto no BlockBeats

Bem-vindo a juntar-se à comunidade oficial do BlockBeats:

Canal de subscrição no Telegram: https://t.me/theblockbeats

Grupo de discussão no Telegram: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado