Assim como o GPT pode transformar seus prompts e registros de trabalho em habilidades reutilizáveis, ele também transforma as falhas e correções repetidas dos robôs em experiências que podem ser chamadas posteriormente.

A diferença é que ele não revisa código, mas sim o processo de operação do robô.

Sempre que um robô executa uma tarefa, o ASPIRE registra os processos de percepção, navegação, apreensão, colisão e planejamento de movimento.

Por trás disso, o GPT / Claude que ele chama atua como um pesquisador, julgando onde ocorreu o problema na tarefa e iterando o programa. Se funcionar, a experiência acumulada é escrita como uma Skill.

Dessa forma, o robô pode aprender continuamente escrevendo código, observando trajetórias de execução, corrigindo programas e acumulando habilidades.

E isso não se trata apenas de refinar habilidades a partir da experiência do robô.

O chefe de robótica da NVIDIA, Jim Fan, também afirmou que o ASPIRE representa um novo paradigma de aprendizado contínuo.

Entre eles:

O treinamento deixou de ser gradiente descendente para se tornar um refinamento contínuo de habilidades (Skill Refinement);
O modelo treinado não corresponde mais a um monte de pesos de ponto flutuante, mas a uma biblioteca de habilidades sensoriomotoras (Sensorimotor Skills) em constante expansão;
O treinamento distribuído passou a ser um grupo de Agentes praticando diferentes habilidades e depois consolidando as experiências em uma única biblioteca de habilidades.

O que é treinado não são necessariamente pesos

Embora já tenha sido explicado no início, antes de falar sobre como isso inova o paradigma de treinamento de robôs, vamos dar uma breve contextualização.

O nome completo do ASPIRE é Agentic Skill Programming through Iterative Robot Exploration.

Ele permite que o robô execute tarefas com código, observe trajetórias multimodais de execução após falhas, corrija programas e armazene as experiências corrigidas em uma biblioteca de habilidades (skills library) que se torna cada vez mais robusta.

Essa Skill, embora essencialmente seja um contexto alimentado para um modelo de linguagem grande, armazena um padrão de correção de código (Code Repair Pattern) validado, que diz ao robô como modificar o programa de controle ao encontrar certos tipos de problemas.

Por exemplo, quando um robô está prestes a pegar um rádio e já identificou o alvo, mas não consegue se aproximar.

O agente pode analisar que a razão não é um erro de identificação, mas sim que os pontos alvo fornecidos pelo planejador (Planner) caem na zona de buffer de colisão dos obstáculos.

A partir disso, com base nessa experiência, o ASPIRE sintetiza uma nova Skill:

Se esse tipo de falha de planejamento ocorrer, tente se aproximar do alvo novamente de diferentes ângulos, como 45°, 90°, 180°, até encontrar um caminho sem colisão.

Da próxima vez que se deparar com um cenário semelhante, independentemente de o alvo ser um rádio, micro-ondas ou outro móvel, essa experiência pode ser reutilizada diretamente, sem a necessidade de novas tentativas e erros.

A essa altura, você pode estar curioso. O treinamento de robôs não deveria envolver dados, gradiente descendente, pesos de modelos, coleta em robôs reais e transferência da simulação para o mundo real?

Como de repente se tornou acumular habilidades?

Aqui, precisamos primeiro falar sobre um paradigma recentemente popular, o Code as Policy.

Diferente dos modelos de política ponta a ponta como o VLA, o Code as Policy não faz o modelo gerar diretamente ações para o robô; em vez disso, ele faz o modelo de linguagem grande escrever um programa de controle executável para o robô.

O programa pode chamar módulos de percepção, APIs de planejamento e primitivas de controle, como identificar objetos, planejar caminhos, mover o braço robótico e executar apreensões.

Dessa forma, o comportamento do robô não fica mais completamente oculto nos pesos da rede neural, mas se torna um código operacional executável.

Com o código, ele pode ser verificado, modificado, depurado e otimizado continuamente pelos modelos de agente atualmente extremamente poderosos.

Mas, no passado, o Code as Policy sempre teve dois problemas.

Primeiro, quando um robô falha, o sistema geralmente só sabe que "a tarefa não foi concluída", mas não sabe se foi um erro de percepção, uma apreensão instável, uma colisão no planejamento de caminho ou um problema na ação de recuperação.

Segundo, e mais crucial, ele não aprende com a experiência.

Depois que uma tarefa é concluída, as soluções de correção, estratégias de recuperação e a redação dos prompts descobertas durante a depuração são descartadas. Na próxima vez que um problema semelhante surgir, é preciso recomeçar do zero.

É por isso que Jim Fan disse:

(Com o ASPIRE) Quando o robô completa a 100ª tarefa, ele finalmente não fica mais tão perdido quanto quando completou a primeira.

Em outras palavras, todo esse processo é exatamente como um engenheiro de robôs humano:

Depois que um programa de robô falha, o engenheiro reproduz o processo de execução, observa os resultados da percepção, analisa a trajetória do movimento e determina se foi um erro de apreensão, de planejamento ou se alguma ação de recuperação não foi conectada.

Após corrigir, o engenheiro registra essa experiência. Da próxima vez que encontrar objetos na borda da mesa, puxadores de gavetas ou navegação em espaços estreitos, ele não começará do zero.

E o que o ASPIRE faz é entregar esse mecanismo de acúmulo de experiência ao agente. Ele não apenas faz o modelo de linguagem grande escrever código de robô, mas também o faz tentar repetidamente, observar repetidamente e corrigir repetidamente no ambiente de execução, para finalmente consolidar as experiências de correção validadas como Skills.

Portanto, no ASPIRE, o treinamento não é mais apenas gradiente descendente.

O processo de treinamento se tornou Skill Refinement; o produto do treinamento não é apenas um conjunto de pesos de modelo, mas uma biblioteca de habilidades que o robô acumula e desenvolve continuamente.

Pipeline de três estágios

No artigo, essa ideia é implementada como um pipeline de três estágios.

Primeiro, o robot execution engine, ou seja, o motor de execução do robô.

Quando um programa de robô tradicional falha, o sistema pode apenas informar que a tarefa não foi concluída.

O ASPIRE decompõe a falha, registrando cada percepção, planejamento, apreensão e chamada de controle, deixando entradas, saídas, evidências visuais e logs de erro.

Assim como um engenheiro humano ao depurar um robô reproduz o vídeo, observa a trajetória e verifica se foi um erro de percepção ou de apreensão, o ASPIRE entrega esse conjunto de ações ao coding agent.

Em seguida, vem a skill library. Depois que o agente corrige o programa, ele não descarta essa experiência, mas a transforma em conhecimento reutilizável.

No site da biblioteca de habilidades, é possível ver itens bastante específicos, como como escrever prompts de texto para o SAM3, como abordar objetos na borda da mesa de vários ângulos, como filtrar falsas detecções de puxadores de gavetas e qual primitiva de movimento usar ao empurrar objetos planos.

Isso não se parece com os pesos de modelos tradicionais; são mais como anotações de aprendizado de um programador de robôs.

Por fim, o evolutionary search.

Um agente não segue apenas um único caminho de correção; o sistema gera múltiplos programas de controle candidatos, faz com que eles executem no ambiente e, com base nos programas sobreviventes e nas trajetórias de falha, continua iterando.

Na engenharia de software, os coding agents já estão acostumados a escrever código, executar testes, observar traces e corrigir bugs. O que o ASPIRE faz é transportar esse ciclo para o mundo físico.

Validação experimental

Para validar esse método, o artigo testou em três benchmarks clássicos de robótica, incluindo LIBERO-Pro, Robosuite e BEHAVIOR-1K, cobrindo operações generalizáveis, operações de contato intensivo e tarefas domésticas de longa duração, respectivamente.

Os resultados gerais foram significativamente melhores do que os métodos anteriores de Code as Policy.

Por exemplo, na tarefa de entrega bimanual (Bimanual Handover) no Robosuite, o ASPIRE aumentou a taxa de sucesso de 20% para 92%.

Quanto à capacidade de generalização.

Primeiro, a Skill Library foi acumulada no LIBERO-90 e depois transferida diretamente para as tarefas longas do LIBERO-Pro Long, nunca antes vistas, sem treinamento adicional nas novas tarefas ou atualização da biblioteca de habilidades.

Os resultados mostraram que, à medida que a biblioteca de habilidades se torna mais rica, a taxa de sucesso do robô em novas tarefas também aumenta constantemente, de quase zero até atingir 31%. Em outras palavras, quanto mais robusta a Skill Library, menos o robô parece um novato.

Apresentação dos autores

No final do blog técnico, a NVIDIA também divulgou a lista completa de autores.

São os rostos conhecidos da equipe GEAR: Jim Fan, Zhu Yuke, Guanzhi Wang, Shi Guanya, entre outros.

Os três primeiros autores são coautores.

Entre eles, Runyu Lu é atualmente estudante de doutorado no segundo ano na Universidade de Michigan, estagiando no GEAR; Yuubo Wu vem da Universidade de Illinois em Urbana-Champaign (UIUC); Ethan Kou, da Universidade da Califórnia, Berkeley, ainda é um estudante de graduação.

Vale destacar que, ontem mesmo, a NVIDIA também anunciou a expansão do recrutamento para sua equipe de robótica na China, abrindo várias vagas em Pequim, Xangai e Shenzhen, cobrindo áreas como inteligência incorporada, simulação, implantação de robôs e arquitetura de soluções.

Fonte: QuantumBit

Aviso de risco e isenção de responsabilidade

        Mercado tem riscos, investimento requer cautela. Este artigo não constitui conselho de investimento pessoal, nem considera objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Investir com base nisso é por sua própria conta e risco.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GateCompletesDividendDistribution
132,91K Popularidade
#
StrategyBuybackSurges12%
1,11M Popularidade
#
IsraelStrikesIranBTCPlunges
67,27K Popularidade
#
PredictWorldCupShare20000U
562,61K Popularidade
#
TrumpDisclosesOver100MBTCETH
3,83M Popularidade

Fixado

sitemap

Momento de Skill da Inteligência Incorporada! Nvidia abre código da biblioteca de habilidades robóticas, Jim Fan: o paradigma mudou

O que é treinado não são necessariamente pesos

Pipeline de três estágios

Validação experimental

Apresentação dos autores

Tendências

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Fixado