Tout comme GPT peut transformer vos prompts et journaux de travail en compétences réutilisables, ASPIRE va également capitaliser les échecs et les corrections du robot en expériences pouvant être réutilisées par la suite.

Seulement, il ne révise pas du code, mais le processus opérationnel du robot.

Chaque fois que le robot exécute une tâche, ASPIRE enregistre les processus de perception, navigation, saisie, collision, planification de mouvement, etc.

Le GPT/Claude qu'il appelle en arrière-plan agit comme un chercheur, déterminant où se situe le problème dans la tâche et itérant le programme. Si celui-ci fonctionne, l'expérience consolidée est écrite dans une compétence.

Ainsi, le robot peut apprendre en continu en écrivant du code, en observant les trajectoires d'exécution, en réparant les programmes et en consolidant les compétences.

Et ce n'est pas seulement une simple question de raffiner des compétences à partir de l'expérience du robot.

Jim Fan, responsable des robots chez NVIDIA, a également indiqué qu'ASPIRE représente un paradigme d'apprentissage continu entièrement nouveau.

Parmi ceux-ci :

L'entraînement passe de la descente de gradient à un affinement continu des compétences (Skill Refinement) ;
Le modèle entraîné ne correspond plus seulement à un tas de poids flottants, mais à une bibliothèque de compétences robotiques en expansion continue (Sensorimotor Skills) ;
L'entraînement distribué devient quant à lui un groupe d'Agents pratiquant chacun des compétences différentes, puis regroupant leurs expériences dans une même bibliothèque de compétences.

Ce qui est entraîné n'est pas nécessairement des poids

Bien que le début ait déjà été présenté en partie, avant d'expliquer comment cela révolutionne le paradigme d'entraînement des robots, donnons d'abord un peu de contexte.

Le nom complet d'ASPIRE est Agentic Skill Programming through Iterative Robot Exploration.

Il permet au robot d'utiliser du code pour exécuter des tâches, d'observer les trajectoires d'exécution multimodales après un échec, de réparer le programme, et de stocker l'expérience réparée dans une bibliothèque de compétences qui ne cesse de s'épaissir.

Ici, la compétence, bien que par essence reste un contexte donné à un grand modèle, condense un ensemble de motifs de correction de code (Code Repair Pattern) validés, permettant au robot de savoir comment modifier le programme de contrôle lorsqu'il rencontre un certain type de problème.

Par exemple, lorsqu'un robot s'apprête à saisir une radio, qu'il a déjà identifié la cible mais qu'il n'arrive pas à s'en approcher.

L'Agent peut analyser que la raison n'est pas une erreur d'identification, mais que les points cibles donnés par le planificateur (Planner) tombent dans la zone tampon de collision des obstacles.

Ainsi, ASPIRE résumera, sur la base de cette expérience, une nouvelle compétence :

Si vous rencontrez ce type d'échec de planification, essayez de vous rapprocher de la cible sous différents angles (45°, 90°, 180°, etc.) jusqu'à trouver un chemin sans collision.

À l'avenir, dans des scénarios similaires, que la cible soit une radio, un micro-ondes ou un autre meuble, cette expérience peut être directement réutilisée sans avoir à recommencer les essais et erreurs.

En parlant de cela, vous vous demandez peut-être. L'entraînement des robots ne devrait-il pas se faire avec des données, de la descente de gradient, des poids de modèle, des acquisitions réelles, une simulation vers le monde réel ?

Pourquoi soudainement accumuler des compétences ?

Il faut d'abord évoquer un paradigme récent très en vogue, le Code as Policy.

Contrairement aux modèles de stratégie de bout en bout comme VLA, Code as Policy ne demande pas au modèle de sortir directement les actions du robot, mais plutôt à un grand modèle d'écrire un programme de contrôle robotique exécutable.

Le programme peut appeler des modules de perception, des API de planification et des primitives de contrôle, comme identifier un objet, planifier un chemin, déplacer un bras robotique, exécuter une saisie.

Ainsi, le comportement du robot n'est plus complètement caché dans les poids du réseau neuronal, mais devient du code opérationnel exécutable.

Avec du code, il peut être vérifié, modifié, débogué et optimisé par les modèles d'Agent actuellement extrêmement puissants.

Mais par le passé, Code as Policy a toujours eu deux problèmes.

Premièrement, lorsque le robot échoue, le système sait généralement seulement que « la tâche n'est pas accomplie », sans savoir si c'est une erreur de perception, une saisie instable, une collision de chemin planifié, ou un problème d'action de récupération.

Deuxièmement, et c'est le point le plus crucial, il ne retient pas les leçons.

Une fois une tâche terminée, les solutions de réparation, les stratégies de récupération et les formulations de prompts découvertes lors du débogage sont perdues. La prochaine fois qu'un problème similaire se présente, il faut tout recommencer.

C'est pourquoi Jim Fan a dit :

(Avec ASPIRE) Lorsque le robot termine sa 100e tâche, il n'est enfin plus aussi ignorant qu'à sa première tâche.

En clair, tout ce processus ressemble à celui d'un ingénieur en robotique humain :

Lorsqu'un programme robotique échoue, l'ingénieur rejoue le processus d'exécution, examine les résultats de perception, analyse les trajectoires de mouvement, et détermine s'il s'agit d'une erreur de saisie, de planification, ou d'une action de récupération qui n'a pas fonctionné.

Après avoir réparé, l'ingénieur note cette expérience. La prochaine fois qu'il rencontrera un objet au bord d'une table, une poignée de tiroir, ou une navigation dans un espace étroit, il ne partira pas de zéro.

Ce qu'ASPIRE fait, c'est confier ce mécanisme d'accumulation d'expérience à un agent. Non seulement il laisse le grand modèle écrire du code robotique, mais il le laisse également essayer, observer et réparer de manière répétée dans l'environnement d'exécution, pour finalement condenser l'expérience de réparation validée en compétence.

Ainsi, dans ASPIRE, l'entraînement n'est plus seulement une descente de gradient.

Le processus d'entraînement devient un affinement des compétences (Skill Refinement) ; le produit de l'entraînement n'est plus seulement un poids de modèle, mais une bibliothèque de compétences (Skills Library) que le robot accumule et développe continuellement.

Pipeline en trois étapes

Dans l'article, cette idée est implémentée sous la forme d'un pipeline en trois étapes.

Tout d'abord, le robot execution engine, c'est-à-dire le moteur d'exécution du robot.

Lorsqu'un programme robotique traditionnel échoue, le système peut seulement vous dire que la tâche n'est pas accomplie.

ASPIRE décompose l'échec : à chaque perception, planification, saisie, appel de contrôle, il conserve les entrées, sorties, preuves visuelles et journaux d'erreurs.

Tout comme un ingénieur humain qui rejoue une vidéo, examine la trajectoire et vérifie si c'est une erreur de perception ou de saisie lorsqu'il dépanne un robot, ASPIRE confie cette action à un agent de codage.

Ensuite, la skill library. Après que l'agent a réparé le programme, il ne jette pas cette expérience, mais la condense en connaissances réutilisables.

Dans la bibliothèque de compétences du site officiel, on peut voir des entrées très spécifiques, comme comment écrire un prompt de texte SAM3, comment s'approcher d'un objet au bord d'une table sous plusieurs angles, comment filtrer les fausses détections d'une poignée de tiroir, quelle primitive de mouvement utiliser pour pousser un objet plan.

Celles-ci ne ressemblent pas aux poids de modèle traditionnels ; elles ressemblent plutôt aux notes de terrain d'un programmeur de robots.

Enfin, la evolutionary search.

Un agent ne se contente pas de suivre un seul chemin de réparation ; le système génère plusieurs programmes de contrôle candidats, les fait exécuter dans l'environnement, puis itère en fonction des programmes survivants et des trajectoires d'échec.

En génie logiciel, les agents de codage ont l'habitude d'écrire du code, d'exécuter des tests, de consulter les traces et de corriger les bogues. Ce qu'ASPIRE fait, c'est transposer ce cycle dans le monde physique.

Validation expérimentale

Pour valider cette méthode, l'article a effectué des tests sur trois benchmarks robotiques classiques : LIBERO-Pro, Robosuite et BEHAVIOR-1K, couvrant respectivement la manipulation généralisée, la manipulation à contact intense et les tâches domestiques de longue durée.

Les résultats globaux sont nettement supérieurs aux méthodes précédentes de Code as Policy.

Par exemple, dans la tâche de transfert d'objets à deux bras (Bimanual Handover) de Robosuite, ASPIRE a augmenté le taux de réussite de 20% à 92%.

En ce qui concerne la capacité de généralisation.

L'étude a d'abord accumulé la Skill Library sur LIBERO-90, puis l'a directement transférée sur la longue tâche LIBERO-Pro Long jamais vue auparavant, sans entraînement supplémentaire sur la nouvelle tâche ni mise à jour de la bibliothèque de compétences.

Les résultats montrent qu'à mesure que la bibliothèque de compétences s'enrichit, le taux de réussite du robot sur les nouvelles tâches augmente également, passant de presque rien à 31 % finalement. En d'autres termes, plus la Skill Library est épaisse, moins le robot ressemble à un débutant.

Présentation des auteurs

À la fin du billet technique, NVIDIA a également publié la liste complète des auteurs.

Ce sont toujours les visages familiers de l'équipe GEAR : Jim Fan, Zhu Yuke, Guanzhi Wang, Shi Guanya, etc.

Les trois premiers auteurs sont en contribution conjointe.

Parmi eux, Runyu Lu est actuellement en deuxième année de doctorat à l'Université du Michigan et stagiaire chez GEAR ; Yuubo Wu vient de l'Université de l'Illinois à Urbana-Champaign (UIUC) ; Ethan Kou vient de l'Université de Californie à Berkeley et est encore étudiant de premier cycle.

Il est à noter que, tout juste hier, NVIDIA a également annoncé l'expansion du recrutement de son équipe robotique en Chine, ouvrant de nombreux postes à Pékin, Shanghai et Shenzhen, couvrant l'intelligence incarnée, la simulation, le déploiement de robots et l'architecture de solutions.

Source de cet article : Quantum Bit

Avertissement de risque et clause de non-responsabilité

        Les marchés comportent des risques ; investissez prudemment. Cet article ne constitue pas un conseil d'investissement personnel et ne tient pas compte des objectifs d'investissement, de la situation financière ou des besoins particuliers de certains utilisateurs. Les utilisateurs doivent déterminer si toute opinion, tout avis ou toute conclusion de cet article est adapté à leur situation particulière. Investir en conséquence se fait à vos propres risques.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateCompletesDividendDistribution
135,77K Popularité
#
StrategyBuybackSurges12%
1,27M Popularité
#
IsraelStrikesIranBTCPlunges
67,28K Popularité
#
PredictWorldCupShare20000U
545,16K Popularité
#
TrumpDisclosesOver100MBTCETH
3,83M Popularité

Épinglé

Le moment des compétences de l'intelligence incarnée ! NVIDIA ouvre la bibliothèque de compétences robotiques, Jim Fan : le paradigme a changé

Ce qui est entraîné n'est pas nécessairement des poids

Pipeline en trois étapes

Validation expérimentale

Présentation des auteurs

Sujets populaires

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Épinglé