Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Ações da Coreia
SK Hynix
Negocie ações da Coreia reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gate Wealth
Assuma o controle do seu futuro financeiro
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 8% a.a.
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
Momento de Skill da Inteligência Incorporada! Nvidia abre código da biblioteca de habilidades robóticas, Jim Fan: o paradigma mudou
6! Os robôs também podem aprender habilidades.
Recentemente, a NVIDIA lançou um conjunto de bibliotecas de habilidades que permite que os robôs cresçam continuamente —
ASPIRE.
Simplificando, o ASPIRE é como um Coding Agent para robôs.
Assim como o GPT pode transformar seus prompts e registros de trabalho em habilidades reutilizáveis, ele também transforma as falhas e correções repetidas dos robôs em experiências que podem ser chamadas posteriormente.
A diferença é que ele não revisa código, mas sim o processo de operação do robô.
Sempre que um robô executa uma tarefa, o ASPIRE registra os processos de percepção, navegação, apreensão, colisão e planejamento de movimento.
Por trás disso, o GPT / Claude que ele chama atua como um pesquisador, julgando onde ocorreu o problema na tarefa e iterando o programa. Se funcionar, a experiência acumulada é escrita como uma Skill.
Dessa forma, o robô pode aprender continuamente escrevendo código, observando trajetórias de execução, corrigindo programas e acumulando habilidades.
E isso não se trata apenas de refinar habilidades a partir da experiência do robô.
O chefe de robótica da NVIDIA, Jim Fan, também afirmou que o ASPIRE representa um novo paradigma de aprendizado contínuo.
Entre eles:
O treinamento deixou de ser gradiente descendente para se tornar um refinamento contínuo de habilidades (Skill Refinement);
O modelo treinado não corresponde mais a um monte de pesos de ponto flutuante, mas a uma biblioteca de habilidades sensoriomotoras (Sensorimotor Skills) em constante expansão;
O treinamento distribuído passou a ser um grupo de Agentes praticando diferentes habilidades e depois consolidando as experiências em uma única biblioteca de habilidades.
O que é treinado não são necessariamente pesos
Embora já tenha sido explicado no início, antes de falar sobre como isso inova o paradigma de treinamento de robôs, vamos dar uma breve contextualização.
O nome completo do ASPIRE é Agentic Skill Programming through Iterative Robot Exploration.
Ele permite que o robô execute tarefas com código, observe trajetórias multimodais de execução após falhas, corrija programas e armazene as experiências corrigidas em uma biblioteca de habilidades (skills library) que se torna cada vez mais robusta.
Essa Skill, embora essencialmente seja um contexto alimentado para um modelo de linguagem grande, armazena um padrão de correção de código (Code Repair Pattern) validado, que diz ao robô como modificar o programa de controle ao encontrar certos tipos de problemas.
Por exemplo, quando um robô está prestes a pegar um rádio e já identificou o alvo, mas não consegue se aproximar.
O agente pode analisar que a razão não é um erro de identificação, mas sim que os pontos alvo fornecidos pelo planejador (Planner) caem na zona de buffer de colisão dos obstáculos.
A partir disso, com base nessa experiência, o ASPIRE sintetiza uma nova Skill:
Da próxima vez que se deparar com um cenário semelhante, independentemente de o alvo ser um rádio, micro-ondas ou outro móvel, essa experiência pode ser reutilizada diretamente, sem a necessidade de novas tentativas e erros.
A essa altura, você pode estar curioso. O treinamento de robôs não deveria envolver dados, gradiente descendente, pesos de modelos, coleta em robôs reais e transferência da simulação para o mundo real?
Como de repente se tornou acumular habilidades?
Aqui, precisamos primeiro falar sobre um paradigma recentemente popular, o Code as Policy.
Diferente dos modelos de política ponta a ponta como o VLA, o Code as Policy não faz o modelo gerar diretamente ações para o robô; em vez disso, ele faz o modelo de linguagem grande escrever um programa de controle executável para o robô.
O programa pode chamar módulos de percepção, APIs de planejamento e primitivas de controle, como identificar objetos, planejar caminhos, mover o braço robótico e executar apreensões.
Dessa forma, o comportamento do robô não fica mais completamente oculto nos pesos da rede neural, mas se torna um código operacional executável.
Com o código, ele pode ser verificado, modificado, depurado e otimizado continuamente pelos modelos de agente atualmente extremamente poderosos.
Mas, no passado, o Code as Policy sempre teve dois problemas.
Primeiro, quando um robô falha, o sistema geralmente só sabe que "a tarefa não foi concluída", mas não sabe se foi um erro de percepção, uma apreensão instável, uma colisão no planejamento de caminho ou um problema na ação de recuperação.
Segundo, e mais crucial, ele não aprende com a experiência.
Depois que uma tarefa é concluída, as soluções de correção, estratégias de recuperação e a redação dos prompts descobertas durante a depuração são descartadas. Na próxima vez que um problema semelhante surgir, é preciso recomeçar do zero.
É por isso que Jim Fan disse:
Em outras palavras, todo esse processo é exatamente como um engenheiro de robôs humano:
Depois que um programa de robô falha, o engenheiro reproduz o processo de execução, observa os resultados da percepção, analisa a trajetória do movimento e determina se foi um erro de apreensão, de planejamento ou se alguma ação de recuperação não foi conectada.
Após corrigir, o engenheiro registra essa experiência. Da próxima vez que encontrar objetos na borda da mesa, puxadores de gavetas ou navegação em espaços estreitos, ele não começará do zero.
E o que o ASPIRE faz é entregar esse mecanismo de acúmulo de experiência ao agente. Ele não apenas faz o modelo de linguagem grande escrever código de robô, mas também o faz tentar repetidamente, observar repetidamente e corrigir repetidamente no ambiente de execução, para finalmente consolidar as experiências de correção validadas como Skills.
Portanto, no ASPIRE, o treinamento não é mais apenas gradiente descendente.
O processo de treinamento se tornou Skill Refinement; o produto do treinamento não é apenas um conjunto de pesos de modelo, mas uma biblioteca de habilidades que o robô acumula e desenvolve continuamente.
Pipeline de três estágios
No artigo, essa ideia é implementada como um pipeline de três estágios.
Primeiro, o robot execution engine, ou seja, o motor de execução do robô.
Quando um programa de robô tradicional falha, o sistema pode apenas informar que a tarefa não foi concluída.
O ASPIRE decompõe a falha, registrando cada percepção, planejamento, apreensão e chamada de controle, deixando entradas, saídas, evidências visuais e logs de erro.
Assim como um engenheiro humano ao depurar um robô reproduz o vídeo, observa a trajetória e verifica se foi um erro de percepção ou de apreensão, o ASPIRE entrega esse conjunto de ações ao coding agent.
Em seguida, vem a skill library. Depois que o agente corrige o programa, ele não descarta essa experiência, mas a transforma em conhecimento reutilizável.
No site da biblioteca de habilidades, é possível ver itens bastante específicos, como como escrever prompts de texto para o SAM3, como abordar objetos na borda da mesa de vários ângulos, como filtrar falsas detecções de puxadores de gavetas e qual primitiva de movimento usar ao empurrar objetos planos.
Isso não se parece com os pesos de modelos tradicionais; são mais como anotações de aprendizado de um programador de robôs.
Por fim, o evolutionary search.
Um agente não segue apenas um único caminho de correção; o sistema gera múltiplos programas de controle candidatos, faz com que eles executem no ambiente e, com base nos programas sobreviventes e nas trajetórias de falha, continua iterando.
Na engenharia de software, os coding agents já estão acostumados a escrever código, executar testes, observar traces e corrigir bugs. O que o ASPIRE faz é transportar esse ciclo para o mundo físico.
Validação experimental
Para validar esse método, o artigo testou em três benchmarks clássicos de robótica, incluindo LIBERO-Pro, Robosuite e BEHAVIOR-1K, cobrindo operações generalizáveis, operações de contato intensivo e tarefas domésticas de longa duração, respectivamente.
Os resultados gerais foram significativamente melhores do que os métodos anteriores de Code as Policy.
Por exemplo, na tarefa de entrega bimanual (Bimanual Handover) no Robosuite, o ASPIRE aumentou a taxa de sucesso de 20% para 92%.
Quanto à capacidade de generalização.
Primeiro, a Skill Library foi acumulada no LIBERO-90 e depois transferida diretamente para as tarefas longas do LIBERO-Pro Long, nunca antes vistas, sem treinamento adicional nas novas tarefas ou atualização da biblioteca de habilidades.
Os resultados mostraram que, à medida que a biblioteca de habilidades se torna mais rica, a taxa de sucesso do robô em novas tarefas também aumenta constantemente, de quase zero até atingir 31%. Em outras palavras, quanto mais robusta a Skill Library, menos o robô parece um novato.
Apresentação dos autores
No final do blog técnico, a NVIDIA também divulgou a lista completa de autores.
São os rostos conhecidos da equipe GEAR: Jim Fan, Zhu Yuke, Guanzhi Wang, Shi Guanya, entre outros.
Os três primeiros autores são coautores.
Entre eles, Runyu Lu é atualmente estudante de doutorado no segundo ano na Universidade de Michigan, estagiando no GEAR; Yuubo Wu vem da Universidade de Illinois em Urbana-Champaign (UIUC); Ethan Kou, da Universidade da Califórnia, Berkeley, ainda é um estudante de graduação.
Vale destacar que, ontem mesmo, a NVIDIA também anunciou a expansão do recrutamento para sua equipe de robótica na China, abrindo várias vagas em Pequim, Xangai e Shenzhen, cobrindo áreas como inteligência incorporada, simulação, implantação de robôs e arquitetura de soluções.
Fonte: QuantumBit
Aviso de risco e isenção de responsabilidade