Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Actions coréennes
SK Hynix
Tradez de véritables actions coréennes et investissez dans les actifs les plus populaires
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
Le moment des compétences de l'intelligence incarnée ! NVIDIA ouvre la bibliothèque de compétences robotiques, Jim Fan : le paradigme a changé
6 ! Les robots peuvent aussi apprendre des compétences.
À l'instant, NVIDIA a dévoilé une bibliothèque de compétences permettant aux robots de grandir en continu —
ASPIRE.
Pour faire simple, ASPIRE ressemble un peu à un Agent de codage version robot.
Tout comme GPT peut transformer vos prompts et journaux de travail en compétences réutilisables, ASPIRE va également capitaliser les échecs et les corrections du robot en expériences pouvant être réutilisées par la suite.
Seulement, il ne révise pas du code, mais le processus opérationnel du robot.
Chaque fois que le robot exécute une tâche, ASPIRE enregistre les processus de perception, navigation, saisie, collision, planification de mouvement, etc.
Le GPT/Claude qu'il appelle en arrière-plan agit comme un chercheur, déterminant où se situe le problème dans la tâche et itérant le programme. Si celui-ci fonctionne, l'expérience consolidée est écrite dans une compétence.
Ainsi, le robot peut apprendre en continu en écrivant du code, en observant les trajectoires d'exécution, en réparant les programmes et en consolidant les compétences.
Et ce n'est pas seulement une simple question de raffiner des compétences à partir de l'expérience du robot.
Jim Fan, responsable des robots chez NVIDIA, a également indiqué qu'ASPIRE représente un paradigme d'apprentissage continu entièrement nouveau.
Parmi ceux-ci :
Ce qui est entraîné n'est pas nécessairement des poids
Bien que le début ait déjà été présenté en partie, avant d'expliquer comment cela révolutionne le paradigme d'entraînement des robots, donnons d'abord un peu de contexte.
Le nom complet d'ASPIRE est Agentic Skill Programming through Iterative Robot Exploration.
Il permet au robot d'utiliser du code pour exécuter des tâches, d'observer les trajectoires d'exécution multimodales après un échec, de réparer le programme, et de stocker l'expérience réparée dans une bibliothèque de compétences qui ne cesse de s'épaissir.
Ici, la compétence, bien que par essence reste un contexte donné à un grand modèle, condense un ensemble de motifs de correction de code (Code Repair Pattern) validés, permettant au robot de savoir comment modifier le programme de contrôle lorsqu'il rencontre un certain type de problème.
Par exemple, lorsqu'un robot s'apprête à saisir une radio, qu'il a déjà identifié la cible mais qu'il n'arrive pas à s'en approcher.
L'Agent peut analyser que la raison n'est pas une erreur d'identification, mais que les points cibles donnés par le planificateur (Planner) tombent dans la zone tampon de collision des obstacles.
Ainsi, ASPIRE résumera, sur la base de cette expérience, une nouvelle compétence :
À l'avenir, dans des scénarios similaires, que la cible soit une radio, un micro-ondes ou un autre meuble, cette expérience peut être directement réutilisée sans avoir à recommencer les essais et erreurs.
En parlant de cela, vous vous demandez peut-être. L'entraînement des robots ne devrait-il pas se faire avec des données, de la descente de gradient, des poids de modèle, des acquisitions réelles, une simulation vers le monde réel ?
Pourquoi soudainement accumuler des compétences ?
Il faut d'abord évoquer un paradigme récent très en vogue, le Code as Policy.
Contrairement aux modèles de stratégie de bout en bout comme VLA, Code as Policy ne demande pas au modèle de sortir directement les actions du robot, mais plutôt à un grand modèle d'écrire un programme de contrôle robotique exécutable.
Le programme peut appeler des modules de perception, des API de planification et des primitives de contrôle, comme identifier un objet, planifier un chemin, déplacer un bras robotique, exécuter une saisie.
Ainsi, le comportement du robot n'est plus complètement caché dans les poids du réseau neuronal, mais devient du code opérationnel exécutable.
Avec du code, il peut être vérifié, modifié, débogué et optimisé par les modèles d'Agent actuellement extrêmement puissants.
Mais par le passé, Code as Policy a toujours eu deux problèmes.
Premièrement, lorsque le robot échoue, le système sait généralement seulement que « la tâche n'est pas accomplie », sans savoir si c'est une erreur de perception, une saisie instable, une collision de chemin planifié, ou un problème d'action de récupération.
Deuxièmement, et c'est le point le plus crucial, il ne retient pas les leçons.
Une fois une tâche terminée, les solutions de réparation, les stratégies de récupération et les formulations de prompts découvertes lors du débogage sont perdues. La prochaine fois qu'un problème similaire se présente, il faut tout recommencer.
C'est pourquoi Jim Fan a dit :
En clair, tout ce processus ressemble à celui d'un ingénieur en robotique humain :
Lorsqu'un programme robotique échoue, l'ingénieur rejoue le processus d'exécution, examine les résultats de perception, analyse les trajectoires de mouvement, et détermine s'il s'agit d'une erreur de saisie, de planification, ou d'une action de récupération qui n'a pas fonctionné.
Après avoir réparé, l'ingénieur note cette expérience. La prochaine fois qu'il rencontrera un objet au bord d'une table, une poignée de tiroir, ou une navigation dans un espace étroit, il ne partira pas de zéro.
Ce qu'ASPIRE fait, c'est confier ce mécanisme d'accumulation d'expérience à un agent. Non seulement il laisse le grand modèle écrire du code robotique, mais il le laisse également essayer, observer et réparer de manière répétée dans l'environnement d'exécution, pour finalement condenser l'expérience de réparation validée en compétence.
Ainsi, dans ASPIRE, l'entraînement n'est plus seulement une descente de gradient.
Le processus d'entraînement devient un affinement des compétences (Skill Refinement) ; le produit de l'entraînement n'est plus seulement un poids de modèle, mais une bibliothèque de compétences (Skills Library) que le robot accumule et développe continuellement.
Pipeline en trois étapes
Dans l'article, cette idée est implémentée sous la forme d'un pipeline en trois étapes.
Tout d'abord, le robot execution engine, c'est-à-dire le moteur d'exécution du robot.
Lorsqu'un programme robotique traditionnel échoue, le système peut seulement vous dire que la tâche n'est pas accomplie.
ASPIRE décompose l'échec : à chaque perception, planification, saisie, appel de contrôle, il conserve les entrées, sorties, preuves visuelles et journaux d'erreurs.
Tout comme un ingénieur humain qui rejoue une vidéo, examine la trajectoire et vérifie si c'est une erreur de perception ou de saisie lorsqu'il dépanne un robot, ASPIRE confie cette action à un agent de codage.
Ensuite, la skill library. Après que l'agent a réparé le programme, il ne jette pas cette expérience, mais la condense en connaissances réutilisables.
Dans la bibliothèque de compétences du site officiel, on peut voir des entrées très spécifiques, comme comment écrire un prompt de texte SAM3, comment s'approcher d'un objet au bord d'une table sous plusieurs angles, comment filtrer les fausses détections d'une poignée de tiroir, quelle primitive de mouvement utiliser pour pousser un objet plan.
Celles-ci ne ressemblent pas aux poids de modèle traditionnels ; elles ressemblent plutôt aux notes de terrain d'un programmeur de robots.
Enfin, la evolutionary search.
Un agent ne se contente pas de suivre un seul chemin de réparation ; le système génère plusieurs programmes de contrôle candidats, les fait exécuter dans l'environnement, puis itère en fonction des programmes survivants et des trajectoires d'échec.
En génie logiciel, les agents de codage ont l'habitude d'écrire du code, d'exécuter des tests, de consulter les traces et de corriger les bogues. Ce qu'ASPIRE fait, c'est transposer ce cycle dans le monde physique.
Validation expérimentale
Pour valider cette méthode, l'article a effectué des tests sur trois benchmarks robotiques classiques : LIBERO-Pro, Robosuite et BEHAVIOR-1K, couvrant respectivement la manipulation généralisée, la manipulation à contact intense et les tâches domestiques de longue durée.
Les résultats globaux sont nettement supérieurs aux méthodes précédentes de Code as Policy.
Par exemple, dans la tâche de transfert d'objets à deux bras (Bimanual Handover) de Robosuite, ASPIRE a augmenté le taux de réussite de 20% à 92%.
En ce qui concerne la capacité de généralisation.
L'étude a d'abord accumulé la Skill Library sur LIBERO-90, puis l'a directement transférée sur la longue tâche LIBERO-Pro Long jamais vue auparavant, sans entraînement supplémentaire sur la nouvelle tâche ni mise à jour de la bibliothèque de compétences.
Les résultats montrent qu'à mesure que la bibliothèque de compétences s'enrichit, le taux de réussite du robot sur les nouvelles tâches augmente également, passant de presque rien à 31 % finalement. En d'autres termes, plus la Skill Library est épaisse, moins le robot ressemble à un débutant.
Présentation des auteurs
À la fin du billet technique, NVIDIA a également publié la liste complète des auteurs.
Ce sont toujours les visages familiers de l'équipe GEAR : Jim Fan, Zhu Yuke, Guanzhi Wang, Shi Guanya, etc.
Les trois premiers auteurs sont en contribution conjointe.
Parmi eux, Runyu Lu est actuellement en deuxième année de doctorat à l'Université du Michigan et stagiaire chez GEAR ; Yuubo Wu vient de l'Université de l'Illinois à Urbana-Champaign (UIUC) ; Ethan Kou vient de l'Université de Californie à Berkeley et est encore étudiant de premier cycle.
Il est à noter que, tout juste hier, NVIDIA a également annoncé l'expansion du recrutement de son équipe robotique en Chine, ouvrant de nombreux postes à Pékin, Shanghai et Shenzhen, couvrant l'intelligence incarnée, la simulation, le déploiement de robots et l'architecture de solutions.
Source de cet article : Quantum Bit
Avertissement de risque et clause de non-responsabilité