Roue à données ou échantillons répétés ? L'IA physique devrait dire adieu au « culte des heures ».

TL;DR
· Le roboticien Animesh Garg remet en question l'utilisation des heures de téléopération comme indicateur de capacité des modèles.
· Le coût de collecte des données robotiques est élevé, les données de déploiement proviennent souvent de scénarios restreints, et les échantillons répétés deviennent rapidement coûteux.
· Ce qui a le plus de valeur pourrait être les échecs rares, la couverture des tâches et les échantillons nouveaux, plutôt que le temps de fonctionnement total.

Animesh Garg, roboticien anciennement et conjointement à l'Université de Toronto et actuellement à Georgia Tech, compare dans un article intitulé « Moneyball for Physical AI » la course aux données de l'IA incarnée au moment « Moneyball » de l'histoire du baseball.

Il souhaite contester un récit de financement de plus en plus courant : les entreprises de robotique, en accumulant davantage de téléopérations, de déploiements réels et d'heures de fonctionnement, formeraient un volant de données. Pour les investisseurs, ce n'est pas un débat académique. La structure des coûts, la vitesse de commercialisation et les barrières des modèles des entreprises d'IA incarnée sont souvent résumées par les quatre mots « boucle de données fermée ». Si les heures cumulées ne correspondent pas à une progression efficace du modèle, le marché doit réévaluer les actifs de données de ces entreprises.

« Les heures de données » pourraient être la superstition du taux de coups sûrs dans l'industrie robotique.

Garg emprunte l'analogie classique de « Moneyball ». En 2002, l'équipe des Athletics d'Oakland a remporté 103 matchs avec l'un des plus bas salaires de la ligue, non pas en achetant des joueurs plus chers, mais en découvrant que le marché sous-évaluait la valeur des joueurs. Les recruteurs traditionnels se concentrent sur le taux de coups sûrs, les vols de buts et la posture, mais l'indicateur qui explique le mieux la capacité d'une équipe à marquer des points est le pourcentage de présence sur les buts.

Selon lui, l'IA physique pourrait également se trouver dans une phase similaire. L'industrie reconnaît que les données sont essentielles pour parvenir à des modèles robotiques universels, mais elle a tendance à considérer l'indicateur le plus facile à montrer comme le plus important : heures de téléopération cumulées, nombre de démonstrations, nombre de robots déployés, temps de fonctionnement dans les scénarios de production.

La fourniture de données robotiques et de données textuelles n'est pas identique. Les grands modèles de langage peuvent obtenir d'énormes quantités de textes à faible coût depuis Internet, les bases de code, les livres et les pages Web, le goulot d'étranglement venant davantage de la puissance de calcul, du nettoyage et de l'efficacité d'entraînement. Les modèles robotiques ont besoin de données impliquant des interactions physiques, des retours d'action et des changements d'environnement ; chaque heure de données utiles doit être réellement créée, ce qui implique des coûts d'équipement, de main-d'œuvre, de site, de capteurs, de gestion des échecs et de sécurité.

Le roboticien Ken Goldberg a déjà utilisé l'expression « 100 000 ans d'écart de données » pour décrire l'écart entre les robots et les données de l'IA à l'échelle d'Internet. Plus précisément, les données textuelles et image utilisées pour l'entraînement des grands modèles de vision-langage contemporains, si elles étaient converties en temps de lecture ou de visionnage humain, équivaudraient à environ 100 000 ans, alors que les robots manquent de données d'interaction réelles à une échelle similaire. Cette affirmation ne fixe pas un seuil précis pour les modèles robotiques, mais rappelle à l'industrie : les données d'interaction dans le monde réel ne peuvent pas être extraites à faible coût comme les textes web.

C'est aussi la raison pour laquelle Garg s'oppose au récit de « téléopération en usine d'exploitation ». De grandes quantités de téléopérations humaines peuvent effectivement générer des échantillons d'entraînement denses en actions, mais si l'entreprise évalue les données uniquement par le nombre total d'heures, les fonds pourraient être dirigés vers des échantillons répétitifs, de faible difficulté et de faible densité d'information, plutôt que vers les scénarios qui réduisent le plus les taux d'échec.

Les trois types de données n'achètent pas la même chose.

Dans la classification de Garg, les données de l'IA physique se divisent en trois grandes catégories : données d'observation, données d'intervention et données de déploiement. Toutes peuvent être utiles, mais leurs coûts, contraintes et densité d'information varient considérablement.

La première catégorie est celle des données d'observation, par exemple les vidéos à la première ou à la troisième personne. Leur avantage est un faible coût et une large couverture, aidant le modèle à comprendre les objets, l'espace, les résultats des actions et la distribution de l'environnement. Leur inconvénient est évident : le modèle peut voir ce qui se passe avec les humains ou les objets, mais ne sait pas nécessairement quelles actions le robot doit produire dans un état donné.

La deuxième catégorie est celle des données d'intervention, c'est-à-dire les trajectoires état-action générées par téléopération, démonstration et intervention humaine. Ces données sont plus directes pour l'entraînement robotique car elles contiennent la chaîne « voir quoi, comment bouger, ce qui se passe après avoir bougé ». Le prix à payer est que chaque trajectoire de qualité coûte de l'argent ; les coûts de main-d'œuvre et d'équipement ne baissent pas aussi rapidement que ceux des données logicielles.

La troisième catégorie est celle des données de déploiement, c'est-à-dire les données télémétriques générées lorsque le robot fonctionne dans un environnement commercial réel. Cela semble être le volant commercial le plus proche : le robot travaille tout en gagnant de l'argent et en produisant des données d'entraînement. Mais il y a un piège statistique.

Les scénarios robotiques les plus déployés aujourd'hui sont généralement ceux avec le moins de variations, les processus les plus fixes et les risques les plus contrôlables, par exemple les entrepôts, usines ou environnements de tâches uniques hautement structurés. La quantité de ces données de production peut être importante, mais leur distribution est étroite et leur répétitivité élevée. Une fois que le modèle a appris les régularités locales, chaque heure de fonctionnement supplémentaire apporte moins de nouvelles informations.

Les données de déploiement ne sont pas sans valeur. Ce qui a vraiment de la valeur, ce ne sont souvent pas les nombreux segments « réussite de la tâche » ordinaires, mais les échecs, les blocages, les objets anormaux, les conditions limites et les perturbations rares. Le problème est que ces échantillons marginaux n'apparaissent pas régulièrement au rythme souhaité par l'entreprise, et leur découverte, filtrage et analyse post-mortem coûtent plus cher.

Plus de données est utile, mais les échantillons répétés deviennent rapidement plus chers.

Garg est prudent quant à l'emprunt de la loi de scaling des modèles de langage : l'augmentation des données conduit généralement à une diminution de la perte du modèle, mais avec des rendements décroissants. Si les échantillons sont répétés, quasi-répétés ou issus d'une même distribution étroite, l'aide des nouvelles données diminue plus rapidement.

Appliqué au domaine robotique, ce problème est plus intuitif. Un robot apprenant à saisir une boîte d'emballage fixe sur une étagère fixe : les premiers milliers de démonstrations, échecs et corrections peuvent être très précieux. Une fois que les mouvements, objets, lumières et trajectoires ont été collectés à plusieurs reprises, les nouvelles données ressemblent davantage à une duplication d'expériences locales déjà apprises.

Il existe déjà des expériences similaires dans l'entraînement des modèles de langage : les données répétées et quasi-répétées gaspillent le budget d'entraînement, et une répétition excessive peut même nuire à la généralisation. Garg n'applique pas ces conclusions directement à l'entraînement robotique, mais les utilise pour indiquer une direction : mesurer la valeur des données ne peut pas se limiter à la quantité, il faut aussi considérer la différence entre les échantillons.

Pour l'IA physique, la diversité a au moins deux significations. Premièrement, permettre au modèle de voir plus d'objets, d'espaces, de matériaux, de lumières, d'occlusions et de modes d'opération. Deuxièmement, éviter que le modèle ne soit très performant sur une distribution de tâches trop simple et ne tombe en panne dès qu'il change de scénario légèrement différent.

Les cas d'échecs marginaux deviennent donc cruciaux. Le monde physique réel n'est pas uniformément distribué ; les anomalies à basse fréquence déterminent souvent la viabilité commerciale : un objet légèrement déplacé, un emballage déformé, une surface réfléchissante, une prise qui glisse, une intervention humaine soudaine, un capteur qui rate quelque chose, un changement de frottement au sol. Même si le modèle est excellent sur les échantillons normaux, s'il ne peut pas gérer ces événements marginaux, le déploiement sera freiné par quelques échecs.

Pour que le volant de déploiement fonctionne, les scénarios précoces doivent être suffisamment « nouveaux ».

Ce que cet article remet vraiment en question, c'est la voie de commercialisation courante des entreprises d'IA incarnée : déployer d'abord des robots dans des scénarios restreints, utiliser la supervision humaine à distance pour garantir la disponibilité, collecter des données de production, puis utiliser ces données pour entraîner des modèles plus puissants et ouvrir plus de scénarios.

Garg appelle cette approche « néo-intégrateur ». Elle tente de contourner le coût pur de la collecte de données en plaçant les robots dans la production commerciale, permettant aux revenus d'exploitation de compenser les coûts des données. Par rapport à la construction d'une usine de téléopération dédiée, cette voie semble plus efficace.

Mais le volant a une condition préalable : les données générées par les scénarios commerciaux précoces doivent être suffisamment nouvelles et diverses pour aider le modèle à se transférer vers davantage de tâches. Si les scénarios de déploiement ne sont que des tâches étroites à faible variation, faible entropie et fortement personnalisées par l'ingénierie, les données satureront rapidement. L'entreprise n'obtiendra pas un volant de capacités générales, mais un ensemble de projets personnalisés nécessitant une intégration, une maintenance et une gestion des exceptions continues.

Cela entraîne deux types de coûts. Premièrement, pour chaque nouveau scénario, il faut investir dans l'adaptation de l'environnement, l'ajustement des processus, la gestion des échecs et les mécanismes de sécurité. Deuxièmement, si le déploiement n'a pas encore atteint le seuil de rentabilité, l'expansion ne consiste pas nécessairement à collecter des données à faible coût, mais peut aussi consister à accumuler des pertes pour obtenir un grand nombre d'échantillons à faible nouveauté.

Par conséquent, le déploiement précoce n'est pas inutile, mais il nécessite une analyse plus fine : quelle nouvelle couverture de tâches apporte-t-il, combien d'échantillons d'échec et d'anomalies produit-il, ces échantillons peuvent-ils être transférés à d'autres scénarios, et après déduction des coûts de matériel, main-d'œuvre, maintenance et intégration, combien d'amélioration du modèle chaque dollar permet-il d'acheter.

Le récit de valorisation ne peut pas se contenter de demander combien d'heures ont été accumulées.

La suggestion de Garg n'est pas d'arrêter de collecter des données, mais de changer les indicateurs d'évaluation. Les heures de fonctionnement cumulées, les heures de téléopération et le nombre de trajectoires peuvent être des indicateurs opérationnels, mais ils ne doivent pas être directement assimilés à une progression du modèle.

Les questions plus pertinentes incluent : quand les données d'une seule tâche saturent-elles, quel est le coût d'intégration d'ingénierie pour ajouter une nouvelle tâche, combien de scénarios et de clusters d'actions différents les données couvrent-elles, combien d'échantillons de production sont de véritables dérives de distribution et des anomalies, et combien de segments de réussite ordinaires du flux de déploiement devraient être filtrés plutôt que nourris au modèle.

Correspondant aux trois catégories de données, l'allocation des capitaux sera également différente. Les données d'observation devraient prioriser un faible coût, une diversité et une large couverture pour repousser les limites des capacités de base. Les coûteuses données de téléopération et de démonstration, après avoir atteint la saturation d'une seule tâche, devraient voir leur budget redirigé vers davantage de tâches plutôt que de répéter la même action. Les données de déploiement devraient se concentrer sur le filtrage des échecs, des conditions limites et des échantillons hors distribution, en éliminant la grande majorité des enregistrements de fonctionnement ordinaires à faible densité d'information.

Cet ensemble de points de vue a un impact réel sur le récit de valorisation de l'IA physique. Le fait qu'une entreprise possède plus de robots, un temps de fonctionnement plus long, une équipe de téléopération plus importante n'implique pas automatiquement qu'elle dispose de barrières de modèle plus solides. Les capacités les plus difficiles à reproduire pourraient être de trouver continuellement des données marginales de grande valeur, de déterminer quand un type de données sature, et de couvrir plus de distributions de tâches à moindre coût.

Cependant, il s'agit encore d'une perspective d'allocation de capitaux, et non d'une conclusion définitive du secteur. La question de savoir si les modèles robotiques connaîtront des rendements d'échelle similaires à ceux des modèles de langage, si les données de déploiement peuvent continuer à produire de nouvelles informations dans certains scénarios à haute dimension, et l'efficacité du transfert entre différentes tâches, tout cela nécessite encore plus de résultats empiriques.

L'avertissement de Garg porte sur une question plus concrète : l'« indicateur Moneyball » de l'IA physique n'est peut-être pas le nombre d'heures de données, mais le nombre d'échantillons nouveaux achetés par dollar. Pour les entreprises de robotique qui racontent encore des histoires de volant de données, le marché finira par regarder non pas la durée de fonctionnement cumulée, mais la quantité de nouvelles informations produites pendant ce temps.

Cliquez pour connaître les postes à pourvoir chez BlockBeats

Bienvenue dans la communauté officielle de BlockBeats :

Groupe d'abonnement Telegram : https://t.me/theblockbeats

Groupe de discussion Telegram : https://t.me/BlockBeats_App

Compte Twitter officiel : https://twitter.com/BlockBeatsAsia

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé