Roda de dados? Amostras repetidas? Os robôs devem dizer adeus ao 'culto das horas'.

Question

O roboticista Animesh Garg, que foi e é professor afiliado da Universidade de Toronto e atualmente é professor do Georgia Tech, comparou a competição de dados da inteligência incorporada ao momento da «Bola Dourada» na história do basebol num artigo intitulado «Moneyball para a IA Física».

O que ele pretende desafiar é uma narrativa de financiamento cada vez mais comum: as empresas de robótica acreditam que, ao acumularem mais teleoperações, mais implementações reais e mais horas de operação, poderão criar um volante de dados. Para os investidores, isto não é um debate académico. Os custos estruturais, a velocidade de comercialização e as barreiras dos modelos das empresas de inteligência incorporada são frequentemente embalados nas quatro palavras «ciclo fechado de dados». Se as horas acumuladas não equivalem a progressos efetivos do modelo, o mercado precisa de reavaliar os ativos de dados destas empresas.

«Horas de dados» pode ser a superstição da taxa de acerto na indústria robótica

Garg recorreu à analogia clássica de «Moneyball». Em 2002, os Oakland Athletics venceram 103 jogos com uma das equipas com salários mais baixos da liga. A chave não foi comprar jogadores mais caros, mas sim descobrir que o mercado estava a subvalorizar alguns jogadores. Os olheiros tradicionais valorizavam a taxa de acerto, os roubos de base e a postura, mas o indicador que melhor explica a capacidade de pontuação de uma equipa é a taxa de chegada à base.

Na sua opinião, a IA Física pode estar numa fase semelhante. A indústria reconhece que os dados são essenciais para alcançar modelos robóticos universais, mas tende a tratar os indicadores mais fáceis de mostrar como os mais importantes: horas acumuladas de teleoperação, número de trajetórias de demonstração, número de robôs implantados, tempo de funcionamento em cenários de produção.

A forma como os dados robóticos e os dados de texto são fornecidos não é a mesma. Os grandes modelos de linguagem podem obter enormes quantidades de texto de baixo custo a partir da Internet, bases de código, livros e páginas web, sendo os gargalos mais devidos à capacidade computacional, limpeza e eficiência de treino. Os modelos robóticos precisam de dados com interação física, feedback de ação e mudanças ambientais. Cada hora de dados efetivos tem de ser realmente criada, implicando custos de equipamento, mão de obra, espaço, sensores, tratamento de falhas e segurança.

O roboticista Ken Goldberg descreveu a diferença entre dados robóticos e dados de IA à escala da Internet como um «gap de dados de 100.000 anos». Mais precisamente, os dados de texto e imagem consumidos no treino dos grandes modelos de linguagem visual contemporâneos, se convertidos em tempo de leitura ou visualização humana, equivalem a cerca de 100.000 anos, enquanto os robôs carecem de dados de interação real em escala equivalente. Esta afirmação não estabelece um limiar preciso para os modelos robóticos, mas sim lembra à indústria: os dados de interação no mundo real não podem ser obtidos a baixo custo como os textos da web.

Esta é também a razão pela qual Garg se opõe à narrativa da «teleoperação em regime de exploração». É certo que a teleoperação manual em grande escala pode gerar amostras de treino densas em ação, mas se as empresas avaliarem os dados apenas com base no total de horas, os fundos podem fluir para amostras repetitivas, de baixa dificuldade e baixa densidade de informação, em vez de cenários que mais reduzem as taxas de falha.

O que se compra com três tipos de dados não é igual

Na classificação de Garg, os dados da IA Física dividem-se aproximadamente em três categorias: dados de observação, dados de intervenção e dados de implantação. Todos eles podem ser úteis, mas os custos, restrições e densidade de informação variam muito.

A primeira categoria são os dados de observação, como vídeos em primeira ou terceira pessoa. A sua vantagem é o baixo custo e ampla cobertura, ajudando o modelo a compreender objetos, espaço, resultados de ações e distribuição ambiental. A desvantagem também é clara: o modelo pode ver o que aconteceu a pessoas ou objetos, mas não sabe necessariamente que ação o robô deve produzir num determinado estado.

A segunda categoria são os dados de intervenção, ou seja, trajetórias de estado para ação geradas por teleoperação, demonstração e intervenção humana. Este tipo de dados é mais direto para o treino robótico, pois contém a cadeia «o que vê, como move, o que acontece depois de mover». O custo é que cada trajetória de alta qualidade tem de ser paga, e os custos de mão de obra e equipamento dificilmente diminuem tão rapidamente como os dados de software.

A terceira categoria são os dados de implantação, ou seja, dados telemétricos gerados quando os robôs operam em cenários comerciais reais. Parece ser a mais próxima de um volante de dados comercial: o robô trabalha, ganha dinheiro e gera dados de treino ao mesmo tempo. Mas existe uma armadilha estatística.

Os cenários robóticos que primeiro se implementam hoje são normalmente aqueles com menos variação, processos mais fixos e riscos mais controláveis, como armazéns altamente estruturados, fábricas ou ambientes de tarefa única. A quantidade destes dados de produção pode ser grande, mas a distribuição é estreita e a repetição é alta. Uma vez que o modelo aprende as regularidades locais, a nova informação trazida por cada hora adicional de operação diminui.

Os dados de implantação não são inúteis. O que é verdadeiramente valioso não são muitas vezes as grandes quantidades de segmentos regulares de «tarefa concluída com sucesso», mas sim falhas, bloqueios, objetos anómalos, condições de fronteira e perturbações raras. O problema é que estas amostras de cauda longa não aparecem de forma estável ao ritmo desejado pelas empresas, e os custos de descoberta, filtragem e revisão são mais elevados.

Mais dados são úteis, mas amostras repetidas tornam-se rapidamente caras

Garg é cauteloso ao extrair lições da lei de escalonamento dos modelos de linguagem: o aumento de dados geralmente leva a uma diminuição da perda do modelo, mas com retornos decrescentes. Se as amostras são repetidas, aproximadamente repetidas, ou provêm da mesma distribuição estreita, a ajuda de novos dados diminui mais rapidamente.

Aplicado ao domínio da robótica, este problema é mais intuitivo. Um robô a aprender a agarrar uma caixa fixa de uma prateleira fixa: as primeiras milhares de demonstrações, falhas e correções podem ser muito valiosas. Uma vez que as ações, objetos, iluminação e percursos são repetidamente recolhidos, os novos dados assemelham-se mais a copiar a experiência local já aprendida.

Já existem experiências semelhantes no treino de modelos de linguagem: dados repetidos e quase repetidos desperdiçam o orçamento de treino, e a repetição excessiva pode prejudicar a generalização. Garg não aplica diretamente estas conclusões ao treino robótico, mas usa-as para ilustrar uma direção: medir o valor dos dados não pode basear-se apenas na quantidade, mas também na diversidade entre as amostras.

Para a IA Física, a diversidade tem pelo menos dois significados. Primeiro, fazer o modelo ver mais objetos, espaços, materiais, iluminação, oclusões e modos de operação. Segundo, evitar que o modelo tenha um bom desempenho numa distribuição de tarefas demasiado simples e falhe ao mudar para um cenário ligeiramente diferente.

Os casos de falha de cauda longa tornam-se assim cruciais. O mundo físico real não está uniformemente distribuído; anomalias de baixa frequência determinam frequentemente a usabilidade comercial: objetos ligeiramente desalinhados, embalagens deformadas, superfícies refletoras, mão escorregadia, intervenção súbita de pessoas, sensores com falta de visão, variação da fricção do solo. Por mais que o modelo se saia bem em amostras regulares, se não conseguir lidar com estes eventos de cauda, a implantação será travada por algumas falhas.

O volante de dados de implantação funciona se os cenários iniciais forem suficientemente «novos»

O que este artigo realmente desafia é o roteiro comercial comum das empresas de inteligência incorporada: primeiro, implantar robôs em cenários estreitos, usar supervisão remota humana para garantir usabilidade, recolher dados de produção e, em seguida, usar esses dados para treinar modelos mais fortes e abrir mais cenários.

Garg chama a esta abordagem uma abordagem «neo-integradora». Ela tenta contornar os custos puros de recolha de dados, colocando os robôs na produção comercial e deixando que as receitas operacionais compensem os custos dos dados. Em comparação com a construção de fábricas de teleoperação dedicadas, este caminho parece mais eficiente.

Mas o volante de dados tem uma premissa: os dados gerados nos cenários comerciais iniciais devem ser suficientemente novos e diversos para ajudar o modelo a transferir-se para mais tarefas. Se os cenários de implantação são apenas tarefas estreitas de baixa variação, baixa entropia e forte personalização de engenharia, os dados rapidamente saturam. A empresa pode não obter um volante de capacidades gerais, mas sim um conjunto de projetos personalizados que requerem integração, manutenção e tratamento de exceções contínuos.

Isto traz dois tipos de custos. Primeiro, cada novo cenário exige investimento em adaptação do ambiente, ajuste de processos, cobertura de falhas e mecanismos de segurança. Segundo, se a implantação ainda não atingiu o ponto de equilíbrio, expandir a escala não significa necessariamente recolher dados de baixo custo; pode estar a obter um grande número de amostras de baixa novidade à custa de perdas.

Portanto, a implantação precoce não é inútil, mas precisa de ser analisada mais detalhadamente: quantas novas tarefas cobriu, quantas amostras de falha e anomalia gerou, se essas amostras podem ser transferidas para outros cenários, e, após deduzir os custos de hardware, mão de obra, manutenção e integração, quanta melhoria do modelo cada dólar comprou.

A narrativa de avaliação não pode apenas perguntar quantas horas foram acumuladas

A sugestão de Garg não é parar de recolher dados, mas sim mudar a métrica de avaliação. As horas acumuladas de operação, horas de teleoperação e número de trajetórias podem ser indicadores operacionais, mas não devem ser diretamente equiparados ao progresso do modelo.

Perguntas mais explicativas incluem: quando é que os dados de uma tarefa saturam, quantos custos de integração de engenharia são necessários para adicionar uma nova tarefa, quantos cenários e clusters de ação diferentes os dados cobrem, quanta deriva de distribuição e amostras anómalas existem nos dados de produção, e quantos segmentos de sucesso regulares no fluxo de implantação devem ser filtrados em vez de continuar a alimentar o modelo.

Correspondendo aos três tipos de dados, a alocação de capital também será diferente. Os dados de observação devem priorizar baixo custo, diversidade e ampla cobertura, para expandir a fronteira das capacidades base. Os dados de teleoperação e demonstração de alto custo, depois de atingirem a saturação por tarefa, devem redirecionar o orçamento para mais tarefas, em vez de continuar a repetir a mesma ação. Os dados de implantação devem focar-se na filtragem de falhas, condições de fronteira e amostras fora da distribuição, descartando grandes volumes de registos de operação regulares com baixa densidade de informação.

Esta perspetiva tem um impacto real na narrativa de avaliação da IA Física. Uma empresa ter mais robôs, mais tempo de operação e uma equipa de teleoperação maior não representa automaticamente barreiras de modelo mais fortes. A capacidade mais difícil de replicar pode ser a de encontrar continuamente dados de cauda longa de alto valor, determinar quando um tipo de dados satura e cobrir mais distribuições de tarefas a menor custo.

No entanto, esta continua a ser uma perspetiva de alocação de capital, não uma conclusão da indústria. Se os modelos robóticos apresentarão retornos de escala semelhantes aos dos modelos de linguagem, se os dados de implantação podem continuar a gerar nova informação em certos cenários de alta dimensão, e qual a eficiência de transferência entre diferentes tarefas, todas estas questões precisam de ser respondidas com mais resultados empíricos.

O alerta de Garg resume-se a uma questão mais concreta: o «indicador da Bola Dourada» da IA Física talvez não sejam as horas de dados, mas sim as amostras novas que cada dólar compra. Para as empresas de robótica que ainda contam a história do volante de dados, o mercado pode acabar por olhar não para o tempo acumulado de operação, mas para quanta nova informação foi gerada nesse tempo.

Ver original

Roda de dados? Amostras repetidas? Os robôs devem dizer adeus ao 'culto das horas'.

«Horas de dados» pode ser a superstição da taxa de acerto na indústria robótica

O que se compra com três tipos de dados não é igual

Mais dados são úteis, mas amostras repetidas tornam-se rapidamente caras

O volante de dados de implantação funciona se os cenários iniciais forem suficientemente «novos»

A narrativa de avaliação não pode apenas perguntar quantas horas foram acumuladas

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado