Données en boucle ? Échantillons en double ? Les robots doivent dire adieu au « culte des heures ».

Question

Animesh Garg, roboticien anciennement et actuellement professeur à l'Université de Toronto et actuellement au Georgia Tech, dans un article intitulé « Moneyball for Physical AI », compare la compétition de données de l'intelligence incarnée au moment du « Moneyball » dans l'histoire du baseball.
Il cherche à contester un récit de financement de plus en plus courant : les entreprises de robotique peuvent former une boucle de données en empilant plus de téléopérations, plus de déploiements réels, plus d'heures de fonctionnement.
Pour les investisseurs, ce n'est pas une guerre de mots académique.
La structure des coûts, la vitesse de commercialisation et les barrières des modèles des entreprises d'IA incarnée sont souvent emballées dans les quatre mots « boucle de données fermée ».
Si le nombre cumulé d'heures n'équivaut pas à une progression efficace du modèle, le marché doit réévaluer les actifs de données de ces entreprises.
Les « heures de données » pourraient être la superstition du taux de frappe dans l'industrie robotique.
---------------------
Garg a emprunté l'analogie classique de « Moneyball ».
En 2002, les Oakland Athletics ont gagné 103 matchs avec l'un des effectifs les moins payés de la ligue. La clé n'était pas d'acheter des joueurs plus chers, mais de découvrir que le marché avait sous-estimé la valeur des joueurs.
Les recruteurs traditionnels accordaient de l'importance au taux de frappe, aux buts volés et à la forme, mais l'indicateur qui explique le mieux la capacité de marquer des points d'une équipe est le taux de présence sur les bases.
À son avis, l'IA physique pourrait également se trouver dans une phase similaire.
L'industrie reconnaît que les données sont essentielles pour des modèles robotiques généraux, mais elle a tendance à prendre les indicateurs les plus faciles à montrer comme les plus importants : les heures de téléopération cumulées, le nombre de trajectoires de démonstration, le nombre de robots déployés, la durée de fonctionnement des scénarios de production.
La manière dont les données robotiques et textuelles sont fournies est différente.
Les grands modèles de langage peuvent obtenir des quantités massives de texte à faible coût à partir d'Internet, de bases de code, de livres et de pages Web, les goulots d'étranglement venant plus de la puissance de calcul, du nettoyage et de l'efficacité de l'entraînement.
Ce dont les modèles robotiques ont besoin, ce sont des données avec des interactions physiques, un retour d'action et des changements environnementaux. Chaque heure de données utiles doit être réellement créée, ce qui implique des coûts d'équipement, de main-d'œuvre, d'espace, de capteurs, de gestion des échecs et de sécurité.
Le roboticien Ken Goldberg a utilisé l'expression « écart de données de 100 000 ans » pour décrire l'écart entre les données robotiques et les données d'IA à l'échelle d'Internet.
Plus précisément, les données textuelles et images consommées par l'entraînement des grands modèles de vision-langage contemporains, si converties en temps de lecture ou de visionnage humain, équivalent à environ 100 000 ans, alors que la robotique manque de données d'interaction réelles à cette échelle.
Cette affirmation ne fixe pas un seuil précis pour les modèles robotiques, mais rappelle à l'industrie : les données d'interaction du monde réel ne peuvent pas être récoltées à faible coût comme le texte Web.
C'est aussi la raison pour laquelle Garg s'oppose au récit de la « téléopération de type sweat-shop ».
Une téléopération humaine intensive peut certes fournir des échantillons d'entraînement denses en actions, mais si les entreprises n'évaluent les données que par le nombre total d'heures, les fonds peuvent être dirigés vers des échantillons répétitifs, de faible difficulté et à faible densité d'information, plutôt que vers les scénarios les plus à même de réduire les taux d'échec.
Ce que l'on achète avec trois types de données n'est pas la même chose
-------------
Selon la classification de Garg, les données de l'IA physique se divisent approximativement en trois catégories : les données d'observation, les données d'intervention et les données de déploiement.
Toutes peuvent être utiles, mais leurs coûts, contraintes et densités d'information varient considérablement.
La première catégorie est celle des données d'observation, comme les vidéos à la première ou à la troisième personne.
Ses avantages sont un coût faible, une large couverture, et elle peut aider le modèle à comprendre les objets, l'espace, les résultats des actions et la distribution environnementale.
L'inconvénient est clair : le modèle peut voir ce qui arrive aux humains ou aux objets, mais ne sait pas nécessairement quelles actions le robot devrait produire dans un état donné.
La deuxième catégorie est celle des données d'intervention, c'est-à-dire les trajectoires état-action générées par la téléopération, la démonstration et l'intervention humaine.
Ce type de données est plus direct pour l'entraînement robotique car il contient la chaîne « ce qui est vu, comment bouger, ce qui se passe après avoir bougé ».
Le prix est que chaque trajectoire de haute qualité doit être payée, et les coûts de main-d'œuvre et d'équipement sont difficiles à réduire aussi rapidement que ceux des données logicielles.
La troisième catégorie est celle des données de déploiement, c'est-à-dire les données de télémétrie générées lorsque les robots fonctionnent dans des scénarios commerciaux réels.
Cela ressemble le plus à une boucle d'activation commerciale : les robots travaillent, gagnent de l'argent et produisent des données d'entraînement en même temps.
Mais il y a un piège statistique ici.
Aujourd'hui, les premiers scénarios de déploiement robotique sont généralement ceux qui présentent le moins de variations, les processus les plus fixes et les risques les plus contrôlables, comme les entrepôts hautement structurés, les usines ou les environnements à tâche unique.
Ces données de production peuvent être très volumineuses, mais leur distribution est étroite et leur redondance élevée.
Une fois que le modèle a appris les régularités locales, chaque heure de fonctionnement supplémentaire apporte moins de nouvelles informations.
Les données de déploiement ne sont pas sans valeur.
Ce qui a vraiment de la valeur n'est souvent pas les nombreux segments normaux de « tâches accomplies avec succès », mais les échecs, les blocages, les objets anormaux, les conditions limites et les perturbations rares.
Le problème est que ces échantillons de longue traîne n'apparaissent pas régulièrement au rythme souhaité par les entreprises, et les coûts de découverte, de filtrage et de révision sont plus élevés.
Plus de données sont utiles, mais les échantillons répétés deviennent rapidement chers
-----------------
Garg est prudent quant à l'emprunt des lois de mise à l'échelle des modèles de langage : l'augmentation des données entraîne généralement une diminution de la perte du modèle, mais avec des rendements décroissants.
Si les échantillons sont répétés, quasi-répétés ou proviennent de la même distribution étroite, l'aide des nouvelles données diminuera plus rapidement.
Dans le domaine de la robotique, ce problème est plus intuitif.
Un robot qui apprend à saisir une boîte d'emballage fixe sur une étagère fixe : les premières milliers de démonstrations, échecs et corrections peuvent être très précieux.
Une fois que les actions, les objets, l'éclairage et les trajectoires ont été collectés de manière répétée, les nouvelles données ressemblent plus à une copie d'expériences locales déjà apprises.
Il y a déjà une expérience similaire dans l'entraînement des modèles de langage : les données répétées et quasi-répétées gaspillent le budget d'entraînement, et une répétition excessive peut nuire à la généralisation.
Garg n'applique pas directement ces conclusions à l'entraînement robotique, mais les utilise pour illustrer une direction : mesurer la valeur des données ne doit pas seulement tenir compte de la quantité, mais aussi de la différence entre les échantillons.
Pour l'IA physique, la diversité a au moins deux significations.
La première est de faire en sorte que le modèle voie plus d'objets, d'espaces, de matériaux, d'éclairages, d'occlusions et de modes d'opération.
La seconde est d'éviter que le modèle ne fonctionne bien dans une distribution de tâches trop simple mais échoue dans des scénarios légèrement différents.
Les cas d'échec de longue traîne deviennent donc cruciaux.
Le monde physique réel n'est pas uniformément distribué, les anomalies à basse fréquence déterminent souvent la viabilité commerciale : objet légèrement déplacé, emballage déformé, reflet de surface, glissement de la pince, intervention soudaine d'un humain, capteur manquant, changement de friction au sol.
Même si le modèle fonctionne bien sur les échantillons normaux, s'il ne peut pas gérer ces événements de queue, le déploiement sera encore freiné par quelques échecs.
Pour qu'une boucle de déploiement fonctionne, il faut que les premiers scénarios soient suffisamment « nouveaux »
------------------
Ce que cet article conteste vraiment, c'est la voie de commercialisation courante des entreprises d'IA incarnée : d'abord déployer des robots dans des scénarios étroits, utiliser la téléopération humaine pour garantir la disponibilité, collecter des données de production, puis utiliser ces données pour entraîner des modèles plus forts et ouvrir plus de scénarios.
Garg appelle cette approche « néo-intégrateur ».
Elle tente de contourner les coûts de collecte de données pures en plaçant les robots dans la production commerciale, laissant les revenus d'exploitation compenser les coûts des données.
Par rapport à la construction d'usines de téléopération spécialisées, cette voie semble plus efficace.
Mais la boucle a une condition préalable : les données générées par les premiers scénarios commerciaux doivent être suffisamment nouvelles et diverses pour aider le modèle à se transférer vers plus de tâches.
Si les scénarios de déploiement ne sont que des tâches étroites à faible variation, faible entropie et fortement personnalisées par l'ingénierie, les données satureront rapidement.
Ce que l'entreprise obtient pourrait ne pas être une boucle de capacités générales, mais un ensemble de projets personnalisés nécessitant une intégration, une maintenance et une gestion des anomalies continues.
Cela entraîne deux types de coûts.
Premièrement, chaque entrée dans un nouveau scénario nécessite des investissements dans la modification de l'environnement, l'adaptation des processus, la gestion des échecs et les mécanismes de sécurité.
Deuxièmement, si le déploiement lui-même n'a pas encore atteint le seuil de rentabilité, passer à l'échelle ne signifie pas nécessairement collecter des données à faible coût ; cela pourrait aussi signifier échanger des pertes contre de nombreux échantillons de faible nouveauté.
Ainsi, le déploiement précoce n'est pas inutile, mais nécessite un examen plus détaillé : combien de nouvelles tâches couvre-t-il, combien d'échantillons d'échec et d'anomalies produit-il, ces échantillons peuvent-ils être transférés à d'autres scénarios, et après déduction des coûts matériels, humains, de maintenance et d'intégration, combien d'amélioration du modèle chaque dollar achète-t-il.
Le récit de valorisation ne peut pas seulement demander combien d'heures ont été accumulées
--------------
Le conseil de Garg n'est pas d'arrêter de collecter des données, mais de changer le critère d'évaluation.
Les heures de fonctionnement cumulées, les heures de téléopération et le nombre de trajectoires peuvent être des indicateurs opérationnels, mais ne doivent pas être directement assimilés à un progrès du modèle.
Les questions plus explicatives incluent : quand les données d'une tâche unique sont-elles saturées, combien coûte l'intégration d'ingénierie pour ajouter une nouvelle tâche, combien de scénarios et de clusters d'actions différents les données couvrent-elles, combien de véritables dérives de distribution et d'échantillons anormaux contiennent les données de production, combien de segments de succès normaux dans le flux de déploiement devraient être filtrés plutôt que continuer à être donnés au modèle.
Correspondant aux trois types de données, l'allocation du capital sera également différente.
Les données d'observation devraient prioriser le faible coût, la diversité et une large couverture, afin d'élargir les frontières des capacités de base.
Les données coûteuses de téléopération et de démonstration, après avoir atteint la saturation d'une tâche unique, devraient orienter le budget vers plus de tâches, plutôt que de continuer à répéter la même action.
Les données de déploiement devraient se concentrer sur le filtrage des échecs, des conditions limites et des échantillons hors distribution, en éliminant les enregistrements de fonctionnement normaux à faible densité d'information.
Ce point de vue a un impact réel sur le récit de valorisation de l'IA physique.
Une entreprise possédant plus de robots, des temps de fonctionnement plus longs et une plus grande équipe de téléopération ne représente pas automatiquement des barrières de modèle plus fortes.
Les capacités plus difficiles à reproduire pourraient être de trouver continuellement des données de longue traîne de grande valeur, de juger quand un type de données est saturé, et de couvrir plus de distributions de tâches à moindre coût.
Cependant, il s'agit encore d'une perspective d'allocation du capital, pas encore d'une conclusion définitive de l'industrie.
Que les modèles robotiques présentent des rendements d'échelle similaires à ceux des modèles de langage, que les données de déploiement puissent générer continuellement de nouvelles informations dans certains scénarios de haute dimension, et l'efficacité du transfert entre différentes tâches, tout cela doit encore être répondu par plus de résultats empiriques.
Le rappel de Garg se concentre sur une question plus spécifique : l'« indicateur Moneyball » de l'IA physique pourrait ne pas être le nombre d'heures de données, mais la nouveauté des échantillons achetés par dollar.
Pour les entreprises robotiques qui racontent encore des histoires de boucle de données, le marché pourrait finalement regarder non pas la durée cumulée de fonctionnement, mais combien de nouvelles informations ont été générées pendant ce temps.

Données en boucle ? Échantillons en double ? Les robots doivent dire adieu au « culte des heures ».

Sujets populaires

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Épinglé