Roda de dados? Amostras repetidas? Robôs deveriam se despedir do "culto às horas".

Question

曾任、兼任多伦多大学并现任佐治亚理工的机器人学者 Animesh Garg，在一篇题为《Moneyball for Physical AI》的文章中，把具身智能的数据竞赛比作棒球史上的「金球」时刻。

Ele quer desafiar uma narrativa de financiamento cada vez mais comum: empresas de robótica só precisam empilhar mais teleoperação, mais implantação real, mais horas de operação para formar um volante de dados. Para investidores, isso não é uma briga acadêmica de palavras. A estrutura de custos, a velocidade de comercialização e as barreiras de modelo das empresas de inteligência incorporada são muitas vezes embaladas na palavra "ciclo fechado de dados". Se as horas acumuladas não equivalem ao progresso efetivo do modelo, o mercado precisa reavaliar os ativos de dados dessas empresas.

«Horas de dados» pode ser a superstição de taxa de acerto da indústria de robótica

Garg usou a analogia clássica de "Moneyball". Em 2002, o Oakland Athletics venceu 103 jogos com um dos elencos de menor salário da liga. O segredo não foi comprar jogadores mais caros, mas descobrir que o mercado estava subvalorizando os jogadores. Olheiros tradicionais focavam em taxa de acerto, roubo de bases e postura, mas o indicador que melhor explicava a capacidade de pontuação do time era a taxa de chegada à base.

Na visão dele, a Physical AI pode estar em um estágio semelhante. A indústria reconhece que dados são essenciais para modelos robóticos universais, mas tende a tratar o indicador mais fácil de mostrar como o mais importante: horas acumuladas de teleoperação, número de trajetórias de demonstração, número de robôs implantados, tempo de operação em cenários de produção.

A forma de fornecimento de dados de robótica e dados de texto não é a mesma. Grandes modelos de linguagem podem obter grandes quantidades de texto de baixo custo da internet, repositórios de código, livros e páginas web, com gargalos mais em poder computacional, limpeza e eficiência de treinamento. Modelos robóticos precisam de dados com interação física, feedback de ação e mudanças ambientais. Cada hora de dados efetivos precisa ser realmente criada, com custos correspondentes de equipamento, mão de obra, espaço, sensores, tratamento de falhas e segurança.

O roboticista Ken Goldberg já usou "100,000-year data gap" para descrever a diferença entre dados de robótica e dados de IA em escala da internet. Mais precisamente, os dados de texto e imagem consumidos por grandes modelos visuais-linguísticos contemporâneos, se convertidos em tempo de leitura ou visualização humana, equivalem a cerca de 100.000 anos, enquanto a robótica carece de dados de interação real em escala semelhante. Essa afirmação não define um limite exato para modelos robóticos, mas alerta a indústria: dados de interação do mundo real não podem ser coletados a baixo custo como textos da web.

Essa também é a razão pela qual Garg se opõe à narrativa de "teleoperação em sweatshop". Grande quantidade de teleoperação humana pode gerar amostras de treinamento com alta densidade de ação, mas se a empresa avalia dados apenas por horas totais, os fundos podem fluir para amostras repetitivas, de baixa dificuldade e baixa densidade de informação, em vez de cenários que melhor reduzem a taxa de falha.

Três tipos de dados compram coisas diferentes

Na classificação de Garg, os dados de Physical AI se dividem aproximadamente em três categorias: dados de observação, dados de intervenção e dados de implantação. Todos podem ser úteis, mas os custos, restrições e densidade de informação variam bastante.

A primeira categoria são dados de observação, como vídeos em primeira ou terceira pessoa. Sua vantagem é baixo custo e ampla cobertura, ajudando o modelo a entender objetos, espaços, resultados de ações e distribuições ambientais. A desvantagem também é clara: o modelo pode ver o que acontece com pessoas ou objetos, mas não necessariamente sabe qual ação o robô deve gerar em um determinado estado.

A segunda categoria são dados de intervenção, ou seja, trajetórias de estado para ação geradas por teleoperação, demonstração e intervenção humana. Esse tipo de dado é mais direto para o treinamento de robôs, pois contém a cadeia de "o que vê, como se move, o que acontece após o movimento". O custo é que cada trajetória de alta qualidade precisa ser paga, e os custos de mão de obra e equipamento dificilmente caem tão rapidamente quanto os dados de software.

A terceira categoria são dados de implantação, ou seja, dados telemétricos gerados quando robôs operam em cenários comerciais reais. Parece o mais próximo de um volante comercial: o robô trabalha, ganha dinheiro e gera dados de treinamento ao mesmo tempo. Mas há uma armadilha estatística aqui.

Os cenários robóticos que se concretizam primeiro hoje geralmente são aqueles com menos variação, processos mais fixos e riscos mais controláveis, como armazéns altamente estruturados, fábricas ou ambientes de tarefa única. A quantidade desses dados de produção pode ser grande, mas a distribuição é estreita e a repetição é alta. Uma vez que o modelo aprende as regularidades locais, cada hora extra de operação traz menos informações novas.

Dados de implantação não são inúteis. O que realmente tem valor muitas vezes não são grandes quantidades de segmentos rotineiros de "tarefa concluída com sucesso", mas sim falhas, travamentos, objetos anômalos, condições de contorno e perturbações raras. O problema é que essas amostras de cauda longa não aparecem de forma estável no ritmo desejado pela empresa, e os custos de descoberta, triagem e revisão são mais altos.

Mais dados são úteis, mas amostras repetidas rapidamente ficam caras

Garg é cauteloso ao tomar emprestado o scaling law de modelos de linguagem: o aumento de dados geralmente reduz a perda do modelo, mas com retornos decrescentes. Se as amostras são repetidas, quase repetidas ou vêm de uma distribuição estreita, a ajuda de novos dados diminui mais rapidamente.

No campo da robótica, o problema é mais intuitivo. Um robô aprendendo a pegar uma caixa fixa de uma prateleira fixa: as primeiras milhares de demonstrações, falhas e correções podem ser muito valiosas. Uma vez que ações, objetos, iluminação e trajetórias são repetidamente coletados, novos dados são mais como copiar experiências locais já aprendidas.

No treinamento de modelos de linguagem, já há experiência semelhante: dados repetidos e quase repetidos desperdiçam orçamento de treinamento, e a repetição excessiva pode até prejudicar a generalização. Garg não aplica diretamente essas conclusões ao treinamento de robôs, mas as usa para indicar uma direção: medir o valor dos dados não pode ser apenas pela quantidade, mas também pela diferença entre as amostras.

Para a Physical AI, a diversidade tem pelo menos dois significados. Primeiro, fazer o modelo ver mais objetos, espaços, materiais, iluminação, oclusões e modos de operação. Segundo, evitar que o modelo tenha um bom desempenho em uma distribuição de tarefas muito simples, mas falhe em cenários ligeiramente diferentes.

Casos de falha de cauda longa tornam-se cruciais. O mundo físico real não é uniformemente distribuído; anomalias de baixa frequência frequentemente determinam a usabilidade comercial: um objeto ligeiramente deslocado, embalagem deformada, superfície reflexiva, garra escorregando, intervenção humana repentina, sensor perdendo algo, mudança na fricção do chão. Mesmo que o modelo tenha um ótimo desempenho em amostras normais, se não conseguir lidar com esses eventos de cauda, a implantação ainda será prejudicada por algumas falhas.

O volante de implantação funciona, mas precisa que os cenários iniciais sejam suficientemente «novos»

O que este artigo realmente desafia é a rota comercial comum das empresas de inteligência incorporada: primeiro implantar robôs em cenários estreitos, garantir usabilidade com intervenção humana remota, coletar dados de produção e, em seguida, treinar modelos mais fortes para abrir mais cenários.

Garg chama esse caminho de "neo-integrador". Ele tenta contornar o custo puro de coleta de dados, colocando robôs na produção comercial, permitindo que a receita operacional compense o custo dos dados. Comparado à construção dedicada de fábricas de teleoperação, esse caminho parece mais eficiente.

Mas o volante tem uma premissa: os dados gerados nos primeiros cenários comerciais devem ser suficientemente novos e diversos para ajudar o modelo a migrar para mais tarefas. Se os cenários de implantação são apenas tarefas estreitas com baixa variação, baixa entropia e forte customização de engenharia, os dados logo se saturarão. A empresa pode não obter um volante de capacidade geral, mas sim um conjunto de projetos customizados que exigem integração, manutenção e tratamento de exceções contínuas.

Isso traz dois tipos de custos. Primeiro, cada novo cenário requer investimento em adaptação ambiental, ajuste de processo, garantia de falha e mecanismos de segurança. Segundo, se a implantação ainda não atingiu o ponto de equilíbrio financeiro, a expansão não significa necessariamente coleta de dados de baixo custo; pode ser que se troque prejuízo por um grande número de amostras de baixa novidade.

Portanto, a implantação inicial não é inútil, mas precisa ser analisada com mais detalhes: quantas novas tarefas cobre, quantas amostras de falha e anomalia gera, essas amostras podem ser transferidas para outros cenários, e, após deduzir custos de hardware, mão de obra, manutenção e integração, quanto de melhoria do modelo cada dólar compra.

A narrativa de valuation não pode apenas perguntar quantas horas foram acumuladas

A sugestão de Garg não é parar de coletar dados, mas substituir a métrica de avaliação. Horas acumuladas de operação, horas de teleoperação e número de trajetórias podem ser indicadores operacionais, mas não devem ser diretamente equiparados ao progresso do modelo.

Perguntas mais explicativas incluem: quando os dados de uma única tarefa se saturam, quanto custo de engenharia de integração é necessário para adicionar uma nova tarefa, quantos cenários e clusters de ação os dados cobrem, quantas amostras de produção são verdadeiras mudanças de distribuição e anomalias, e quantos segmentos de sucesso rotineiro no fluxo de implantação devem ser filtrados em vez de continuarem sendo alimentados ao modelo.

Correspondendo aos três tipos de dados, a alocação de capital também será diferente. Dados de observação devem priorizar baixo custo, diversidade e ampla cobertura, para expandir a fronteira da capacidade básica. Dados de teleoperação e demonstração de alto custo, após atingir a saturação de tarefa única, devem direcionar o orçamento para mais tarefas, em vez de continuar repetindo a mesma ação. Dados de implantação devem focar em filtrar falhas, condições de contorno e amostras fora da distribuição, descartando grandes registros rotineiros de baixa densidade de informação.

Essa visão tem impacto real na narrativa de valuation da Physical AI. Uma empresa com mais robôs, maior tempo de operação e equipe maior de teleoperação não representa automaticamente ter barreiras de modelo mais fortes. Capacidades mais difíceis de replicar podem ser continuamente encontrar dados de cauda longa de alto valor, julgar quando um tipo de dado se satura e cobrir mais distribuições de tarefas com menor custo.

No entanto, isso ainda é uma perspectiva de alocação de capital, não uma conclusão da indústria. Se modelos robóticos apresentarão retornos de escala semelhantes aos modelos de linguagem, se dados de implantação podem gerar novas informações continuamente em certos cenários de alta dimensão, e quão eficiente é a transferência entre diferentes tarefas, ainda precisam de mais resultados empíricos para responder.

O alerta de Garg se concentra em uma questão mais específica: o «indicador Moneyball» da Physical AI pode não ser horas de dados, mas sim amostras novas compradas por dólar. Para empresas de robótica que ainda contam histórias de volante de dados, o mercado provavelmente não vai olhar para quanto tempo de operação acumularam, mas sim quanta informação nova foi gerada nesse tempo.

Ver original

Roda de dados? Amostras repetidas? Robôs deveriam se despedir do "culto às horas".

«Horas de dados» pode ser a superstição de taxa de acerto da indústria de robótica

Três tipos de dados compram coisas diferentes

Mais dados são úteis, mas amostras repetidas rapidamente ficam caras

O volante de implantação funciona, mas precisa que os cenários iniciais sejam suficientemente «novos»

A narrativa de valuation não pode apenas perguntar quantas horas foram acumuladas

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado