Roda de dados ou amostras repetidas? IA Física deve se despedir do「culto das horas」.

TL;DR
· O robótico Animesh Garg questiona a indústria por usar horas de teleoperação como indicador de capacidade do modelo.
· A coleta de dados robóticos é cara, e os dados de implantação geralmente vêm de cenários estreitos, com amostras repetidas ficando rapidamente mais caras.
· O que pode ser mais valioso são falhas de cauda longa, cobertura de tarefas e amostras inovadoras, não o total de horas de operação.

Animesh Garg, um robótico que foi professor na Universidade de Toronto e atualmente é no Georgia Tech, em um artigo intitulado "Moneyball for Physical AI", compara a competição de dados da inteligência incorporada ao momento do "moneyball" na história do beisebol.

Ele quer desafiar uma narrativa de financiamento cada vez mais comum: empresas de robótica só precisam acumular mais teleoperação, mais implantações reais e mais horas de operação para formar um ciclo virtuoso de dados. Para investidores, isso não é uma guerra de palavras acadêmica. Os custos estruturais, a velocidade de comercialização e as barreiras de modelo das empresas de inteligência incorporada são muitas vezes embalados na frase "ciclo fechado de dados". Se as horas acumuladas não equivalem a progresso efetivo do modelo, o mercado precisa reavaliar os ativos de dados dessas empresas.

"Horas de dados" podem ser a superstição de taxa de acerto da indústria robótica

Garg usa a analogia clássica de "Moneyball". Em 2002, o Oakland Athletics venceu 103 jogos com um dos elencos de salários mais baixos da liga, não porque comprou jogadores mais caros, mas porque descobriu que o mercado estava avaliando mal os jogadores. Os olheiros tradicionais valorizavam taxa de acerto, roubo de bases e postura, mas o indicador que melhor explicava a capacidade de pontuação da equipe era a taxa de chegada em base.

Na visão dele, a Physical AI pode estar em um estágio semelhante. A indústria reconhece que dados são essenciais para modelos robóticos universais, mas tende a tratar os indicadores mais fáceis de mostrar como os mais importantes: horas acumuladas de teleoperação, número de trajetórias de demonstração, número de robôs implantados, tempo de operação em cenários de produção.

A forma como dados robóticos e dados textuais são fornecidos é diferente. Grandes modelos de linguagem podem obter enormes quantidades de texto de baixo custo da internet, repositórios de código, livros e páginas da web, com gargalos mais ligados à potência computacional, limpeza e eficiência de treinamento. Modelos robóticos precisam de dados com interação física, feedback de ação e mudanças ambientais, e cada hora de dados efetivos precisa ser realmente criada, com custos por trás de equipamentos, mão de obra, espaço, sensores, tratamento de falhas e segurança.

O robótico Ken Goldberg descreveu a diferença entre dados robóticos e dados de IA em escala da internet como um "gap de 100.000 anos". Mais precisamente, o texto e as imagens consumidos no treinamento de grandes modelos de linguagem visual contemporâneos, se convertidos em tempo de leitura ou visualização humana, equivalem a cerca de 100.000 anos, enquanto os robôs carecem de dados de interação real em escala equivalente. Essa afirmação não estabelece um limite preciso para modelos robóticos, mas alerta a indústria: dados de interação no mundo real não podem ser capturados a baixo custo como textos da web.

Esta é também a razão pela qual Garg se opõe à narrativa de "teleoperação em regime de trabalho intensivo". Muita teleoperação humana pode gerar amostras de treinamento densas em ações, mas se a empresa avalia dados apenas pelo total de horas, os fundos podem fluir para amostras repetitivas, de baixa dificuldade e baixa densidade de informação, em vez de cenários que mais reduzem a taxa de falha.

Três tipos de dados compram coisas diferentes

Na classificação de Garg, os dados de Physical AI são basicamente divididos em três tipos: dados de observação, dados de intervenção e dados de implantação. Todos podem ser úteis, mas seus custos, restrições e densidades de informação variam muito.

O primeiro tipo são dados de observação, como vídeos em primeira ou terceira pessoa. Sua vantagem é baixo custo e ampla cobertura, ajudando o modelo a entender objetos, espaço, resultados de ações e distribuição ambiental. A desvantagem é clara: o modelo pode ver o que acontece com pessoas ou objetos, mas nem sempre sabe qual ação o robô deve executar em um determinado estado.

O segundo tipo são dados de intervenção, ou seja, teleoperação, demonstração e trajetórias de estado para ação geradas por intervenção humana. Esses dados são mais diretos para treinamento de robôs, pois contêm a cadeia "o que vê, como se move, o que acontece depois". O custo é que cada trajetória de alta qualidade precisa ser paga, e os custos de mão de obra e equipamento dificilmente diminuem tão rapidamente quanto dados de software.

O terceiro tipo são dados de implantação, ou seja, dados telemétricos gerados quando robôs operam em cenários comerciais reais. Parece o mais próximo de um ciclo virtuoso comercial: o robô trabalha, ganha dinheiro e gera dados de treinamento ao mesmo tempo. Mas há uma armadilha estatística aqui.

Os primeiros cenários de implantação de robôs hoje geralmente são aqueles com menos variação, processos mais fixos e riscos mais controláveis, como armazéns altamente estruturados, fábricas ou ambientes de tarefa única. A quantidade de dados de produção pode ser grande, mas a distribuição é estreita e a repetição é alta. Uma vez que o modelo aprende as regularidades locais, cada hora adicional de operação traz menos novas informações.

Dados de implantação não são inúteis. O que realmente é valioso, muitas vezes, não são grandes quantidades de trechos "bem-sucedidos" de tarefas rotineiras, mas sim falhas, travamentos, objetos anormais, condições de contorno e perturbações raras. O problema é que essas amostras de cauda longa não aparecem de forma estável no ritmo desejado pela empresa, e os custos de descoberta, triagem e revisão são mais altos.

Mais dados são úteis, mas amostras repetidas ficam rapidamente mais caras

Garg é cauteloso ao usar a lei de escalonamento de modelos de linguagem: mais dados geralmente reduzem a perda do modelo, mas com retornos decrescentes. Se as amostras são repetidas, aproximadamente repetidas ou vêm de uma distribuição estreita, a ajuda de novos dados diminui mais rapidamente.

No campo da robótica, esse problema é mais intuitivo. Um robô aprendendo a pegar uma caixa fixa em uma prateleira fixa: as primeiras milhares de demonstrações, falhas e correções podem ser muito valiosas. Uma vez que ação, objeto, iluminação e caminho são repetidamente coletados, novos dados parecem mais com copiar experiência local já aprendida.

No treinamento de modelos de linguagem, já há experiência semelhante: dados repetidos e quase repetidos desperdiçam orçamento de treinamento, e repetição excessiva pode prejudicar a generalização. Garg não aplica diretamente essas conclusões ao treinamento de robôs, mas as usa para indicar uma direção: medir o valor dos dados não pode ser apenas pela quantidade, mas também pela diferença entre as amostras.

Para Physical AI, a diversidade tem pelo menos dois significados. O primeiro é fazer o modelo ver mais objetos, espaços, materiais, iluminação, oclusões e modos de operação. O segundo é evitar que o modelo tenha um desempenho muito bom em uma distribuição de tarefas muito simples, mas falhe em cenários ligeiramente diferentes.

Casos de falha de cauda longa tornam-se cruciais. O mundo físico real não é uniformemente distribuído; anomalias de baixa frequência frequentemente determinam a usabilidade comercial: um objeto deslocado um pouco, embalagem deformada, superfície refletiva, escorregamento da garra, intervenção humana repentina, sensor perdendo visão, mudança no atrito do chão. Mesmo que o modelo tenha um bom desempenho em amostras regulares, se não lidar com esses eventos de cauda, a implantação ainda será travada por poucas falhas.

Para o ciclo de implantação funcionar, o cenário inicial precisa ser suficientemente "novo"

O que este artigo realmente desafia é a rota comercial comum das empresas de inteligência incorporada: primeiro implantar robôs em cenários estreitos, usar intervenção remota humana para garantir usabilidade, coletar dados de produção e, em seguida, usar esses dados para treinar modelos mais fortes e abrir mais cenários.

Garg chama essa rota de abordagem "neo-integradora". Ela tenta contornar o custo puro de coleta de dados, colocando robôs na produção comercial, usando a receita operacional para cobrir os custos de dados. Comparado a construir fábricas de teleoperação dedicadas, esse caminho parece mais eficiente.

Mas o ciclo tem uma premissa: os dados gerados pelos cenários comerciais iniciais devem ser suficientemente novos e diversos para ajudar o modelo a migrar para mais tarefas. Se o cenário de implantação é apenas uma tarefa estreita de baixa variação, baixa entropia e fortemente personalizada, os dados saturarão rapidamente. A empresa pode não obter um ciclo de capacidade universal, mas sim um conjunto de projetos personalizados que exigem integração contínua, manutenção e tratamento de exceções.

Isso traz dois tipos de custos. Primeiro, ao entrar em um novo cenário, é necessário investir em adaptação ambiental, ajuste de processo, garantia de falha e mecanismos de segurança. Segundo, se a implantação ainda não atingiu o ponto de equilíbrio financeiro, expandir a escala não significa coletar dados a baixo custo, mas sim usar prejuízos para obter muitas amostras com baixa novidade.

Portanto, a implantação inicial não é inútil, mas precisa ser analisada em detalhes: quantas novas tarefas cobriu, quantas amostras de falha e anormalidade gerou, se essas amostras podem ser transferidas para outros cenários, e após deduzir hardware, mão de obra, manutenção e custos de integração, quanto melhoria do modelo cada dólar comprou.

A narrativa de valuation não pode apenas perguntar quantas horas foram acumuladas

A sugestão de Garg não é parar de coletar dados, mas mudar a métrica de avaliação. Horas acumuladas de operação, horas de teleoperação e número de trajetórias podem ser indicadores operacionais, mas não devem ser diretamente equiparados ao progresso do modelo.

Perguntas mais explicativas incluem: quando os dados de uma única tarefa saturam, qual é o custo de integração de engenharia para adicionar uma nova tarefa, quantos cenários e clusters de ações diferentes os dados cobrem, quantas amostras de desvio de distribuição e anormalidade existem nos dados de produção, e quantos trechos de sucesso rotineiros no fluxo de implantação devem ser filtrados em vez de alimentar o modelo.

Correspondendo aos três tipos de dados, a alocação de capital também será diferente. Dados de observação devem priorizar baixo custo, diversidade e ampla cobertura, para expandir a fronteira da capacidade básica. Dados de teleoperação e demonstração de alto custo, após saturar uma tarefa, devem direcionar o orçamento para mais tarefas, em vez de continuar repetindo a mesma ação. Dados de implantação devem focar em triagem de falhas, condições de contorno e amostras fora da distribuição, descartando muitos registros de operação rotineiros com baixa densidade de informação.

Essa visão tem impacto real na narrativa de valuation de Physical AI. Uma empresa com mais robôs, maior tempo de operação e uma equipe maior de teleoperação não representa automaticamente ter uma barreira de modelo mais forte. A capacidade mais difícil de replicar pode ser encontrar continuamente dados de cauda longa de alto valor, julgar quando um tipo de dado satura e cobrir mais distribuições de tarefas com menor custo.

No entanto, isso ainda é uma perspectiva de alocação de capital, não uma conclusão da indústria. Se os modelos robóticos apresentarão retornos de escala semelhantes aos modelos de linguagem, se os dados de implantação podem continuar gerando novas informações em certos cenários de alta dimensão, e quão eficiente é a transferência entre tarefas diferentes, tudo ainda precisa ser respondido com mais resultados empíricos.

O alerta de Garg se concentra em uma questão mais específica: o "indicador moneyball" da Physical AI pode não ser o número de horas de dados, mas sim a quantidade de amostras inovadoras por dólar. Para empresas de robótica que ainda contam a história do ciclo de dados, o mercado pode, no final, não ver o tempo total de operação, mas sim quanta nova informação foi gerada nesse tempo.

Clique para saber sobre as vagas abertas na BlockBeats

Bem-vindo a se juntar à comunidade oficial da BlockBeats:

Canal de inscrição do Telegram: https://t.me/theblockbeats

Grupo de discussão do Telegram: https://t.me/BlockBeats_App

Conta oficial do Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado