La période de croissance sauvage des données d’apprentissage robotique est terminée.
L’époque où les ensembles de données étaient nombreux et dispersés, chacun allant de son côté, est révolue. D’ici le milieu de 2025, l’écosystème open source des robots aura adopté une configuration claire en « triptyque » — Open X-Embodiment (OXE), LeRobot et InternData-A1 — qui définiront les références actuelles pour les modèles fondamentaux de robotique. La plupart des ensembles de données isolés antérieurs à 2023 auront perdu leur compétitivité.
De la dispersion à l’unification : ce n’est pas une coïncidence
L’évolution des ensembles de données robotique sur Hugging Face Hub montre que l’industrie traverse une transition d’un ensemble fragmenté, orienté vers les institutions, vers un modèle unifié, à grande échelle, standardisé et communautaire.
Ce changement n’est ni fortuit ni le résultat d’une impulsion extérieure. Fondamentalement, entraîner des stratégies de robot généraliste nécessite une échelle et une standardisation ; du point de vue de l’écosystème, les projets bien soutenus et compatibles avec les cadres principaux attirent naturellement plus de développeurs.
Les trois grands écosystèmes à l’œuvre
OXE : le ImageNet du domaine robotique
Open X-Embodiment est une alliance lancée fin 2023 par 34 laboratoires de robotique de premier plan. Ce n’est pas un seul ensemble de données, mais une intégration massive de plus de 60 ensembles existants dans une architecture unifiée.
Les chiffres parlent d’eux-mêmes :
Plus d’un million de trajectoires réelles
22 types différents de robots (de bras industriels à quadrupèdes, robots mobiles)
Toutes les données converties au format standard RLDS basé sur TensorFlow et Apache Arrow
L’enseignement clé est simple : les opérations de base telles que la prise, le dépose, l’ouverture de tiroirs ou l’assemblage à bras unique sont « résolues » au niveau des données. Cela signifie que l’époque où l’on pouvait gagner de l’argent en vendant des données de téléopération de base est définitivement révolue. Le futur du business réside dans des données d’experts de haute précision, dans des environnements domestiques réels, pour des opérations longues, ou dans des formes rares et incarnées (humanoïdes, soft robots).
LeRobot : la réponse standard du camp PyTorch
Contrairement à la voie de recherche de Google/TensorFlow représentée par OXE, Hugging Face’s LeRobot est rapidement devenu la norme de facto pour la communauté open source — en particulier pour les amateurs de PyTorch.
Ce qui distingue cet écosystème, c’est sa pile complète : ensemble de données + modèles + code d’entraînement + outils d’évaluation.
Une innovation notable concerne le stockage : LeRobot Dataset v3.0 utilise Apache Parquet + MP4/AV1 compressé, avec une efficacité de stockage 5 à 10 fois supérieure à la version précédente, et un chargement nettement plus rapide.
Les ensembles de données phares incluent :
DROID 1.0.1 : environ 76 000 ensembles issus de plus de 50 équipes, collectés délibérément en « environnement extérieur » pour refléter au maximum la variabilité réelle
Série Aloha : données de bras doubles de haute précision et de robots mobiles à double bras
Une leçon concrète : la norme de livraison des données est désormais Parquet + MP4. Les fournisseurs commerciaux qui utilisent encore ROS ou des vidéos brutes imposent à leurs clients une surcharge technique inutile.
La « revanche » des données synthétiques : InternData-A1
La troisième force provient de données synthétiques à grande échelle et de haute fidélité. InternData-A1, du laboratoire d’IA de Shanghai, représente la dernière avancée dans cette voie :
Échelle : 630 000 trajectoires, équivalent à 7 433 heures de robotique opérationnelle
Diversité physique : pas seulement des objets rigides, mais aussi articulés, fluides, particulaires et matériaux déformables (tissus, cordages, etc.)
Stack technologique : moteur physique avancé + randomisation de domaine + rendu photoréaliste + génération automatique de scénarios
L’écart avec la réalité : le plafond des données synthétiques
Mais il existe un tournant crucial — malgré leurs progrès, les données synthétiques ne sont pas omnipotentes.
Une étude synthétique de octobre 2025 révèle que, malgré des avancées significatives, la différence fondamentale entre simulation et réalité n’a pas été éliminée. Elle s’est simplement resserrée dans des domaines plus étroits mais toujours critiques.
Les principaux défis sont :
L’écart de dynamique : même les meilleurs moteurs physiques de 2025 peinent à modéliser la chaos, les objets déformables, les coques minces (comme la courbure et les plis des tissus), ou les erreurs d’intégration numérique. Une stratégie qui fonctionne en simulation peut échouer dans des tâches de contact intensif en conditions réelles.
L’écart de perception : si le rendu synthétique atteint un réalisme photo, il présente encore des artefacts systématiques — modèles de défauts de caméras réelles, absence de diffusion sous la surface, halos, poussière, etc.
L’écart de contrôle d’exécution : un vrai robot possède des contrôleurs cachés qui dérivent avec le temps, nécessitant un ajustement fin pour chaque unité.
L’écart environnemental : la sécurité, la latence de communication, la conformité du sol non modélisée sont difficiles à reproduire précisément en simulation.
Les données montrent que, lors de la migration des modèles fondamentaux (RT-2-X, Octo, etc.) du simulé au réel, le taux de réussite chute généralement de 40 à 80 %, avec des performances particulièrement faibles dans les tâches de déformation, contact intensif et longue durée.
En réalité, les données réelles ne sont pas encore obsolètes
Malgré les progrès dans la randomisation de domaine à grande échelle, la modélisation résiduelle, l’entraînement hybride (90-99 % synthétique + 1-10 % réel), la réalité demeure : la migration zéro-capture du simulé vers le réel reste limitée aux tâches rigides de complexité moyenne et aux environnements contrôlés.
Pour des applications impliquant des objets déformables, des fluides, des assemblages de haute précision ou des opérations domestiques non structurées, les données réelles — en particulier les démonstrations d’experts de haute qualité — conservent une valeur irremplaçable.
Que cela signifie-t-il pour les fournisseurs de données ? Les opportunités commerciales de 2026-2028 résideront dans des solutions hybrides combinant grandes quantités de synthétique et trajectoires réelles sélectionnées, notamment dans les domaines « difficiles » (tissus, liquides, scènes chaotiques, raisonnement multi-étapes). À court terme, les données synthétiques seules ne suffiront pas pour un déploiement industriel fiable.
Postface : du « quel ensemble de données » au « comment mixer »
La convergence d’OXE, LeRobot et InternData-A1 marque la fin véritable de l’ère de la fragmentation des données d’apprentissage robotique. Nous entrons dans une phase « post-ensemble de données », où la question clé n’est plus « lequel choisir », mais plutôt :
Comment mixer de façon optimale données réelles, synthétiques et distillées ?
Comment concevoir des métadonnées qui résistent à la distillation du modèle ?
Quelles phénomènes incarnés et physiques restent des goulots d’étranglement ?
Les gagnants des 2-3 prochaines années seront ceux capables de produire des données de haute qualité, conformes aux standards, tout en conservant un avantage dans la collecte de données réelles dans des domaines de plus en plus difficiles.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'ère des « trois pieds du trône » des données robotisées est arrivée, la fragmentation est devenue du passé
La période de croissance sauvage des données d’apprentissage robotique est terminée.
L’époque où les ensembles de données étaient nombreux et dispersés, chacun allant de son côté, est révolue. D’ici le milieu de 2025, l’écosystème open source des robots aura adopté une configuration claire en « triptyque » — Open X-Embodiment (OXE), LeRobot et InternData-A1 — qui définiront les références actuelles pour les modèles fondamentaux de robotique. La plupart des ensembles de données isolés antérieurs à 2023 auront perdu leur compétitivité.
De la dispersion à l’unification : ce n’est pas une coïncidence
L’évolution des ensembles de données robotique sur Hugging Face Hub montre que l’industrie traverse une transition d’un ensemble fragmenté, orienté vers les institutions, vers un modèle unifié, à grande échelle, standardisé et communautaire.
Ce changement n’est ni fortuit ni le résultat d’une impulsion extérieure. Fondamentalement, entraîner des stratégies de robot généraliste nécessite une échelle et une standardisation ; du point de vue de l’écosystème, les projets bien soutenus et compatibles avec les cadres principaux attirent naturellement plus de développeurs.
Les trois grands écosystèmes à l’œuvre
OXE : le ImageNet du domaine robotique
Open X-Embodiment est une alliance lancée fin 2023 par 34 laboratoires de robotique de premier plan. Ce n’est pas un seul ensemble de données, mais une intégration massive de plus de 60 ensembles existants dans une architecture unifiée.
Les chiffres parlent d’eux-mêmes :
L’enseignement clé est simple : les opérations de base telles que la prise, le dépose, l’ouverture de tiroirs ou l’assemblage à bras unique sont « résolues » au niveau des données. Cela signifie que l’époque où l’on pouvait gagner de l’argent en vendant des données de téléopération de base est définitivement révolue. Le futur du business réside dans des données d’experts de haute précision, dans des environnements domestiques réels, pour des opérations longues, ou dans des formes rares et incarnées (humanoïdes, soft robots).
LeRobot : la réponse standard du camp PyTorch
Contrairement à la voie de recherche de Google/TensorFlow représentée par OXE, Hugging Face’s LeRobot est rapidement devenu la norme de facto pour la communauté open source — en particulier pour les amateurs de PyTorch.
Ce qui distingue cet écosystème, c’est sa pile complète : ensemble de données + modèles + code d’entraînement + outils d’évaluation.
Une innovation notable concerne le stockage : LeRobot Dataset v3.0 utilise Apache Parquet + MP4/AV1 compressé, avec une efficacité de stockage 5 à 10 fois supérieure à la version précédente, et un chargement nettement plus rapide.
Les ensembles de données phares incluent :
Une leçon concrète : la norme de livraison des données est désormais Parquet + MP4. Les fournisseurs commerciaux qui utilisent encore ROS ou des vidéos brutes imposent à leurs clients une surcharge technique inutile.
La « revanche » des données synthétiques : InternData-A1
La troisième force provient de données synthétiques à grande échelle et de haute fidélité. InternData-A1, du laboratoire d’IA de Shanghai, représente la dernière avancée dans cette voie :
L’écart avec la réalité : le plafond des données synthétiques
Mais il existe un tournant crucial — malgré leurs progrès, les données synthétiques ne sont pas omnipotentes.
Une étude synthétique de octobre 2025 révèle que, malgré des avancées significatives, la différence fondamentale entre simulation et réalité n’a pas été éliminée. Elle s’est simplement resserrée dans des domaines plus étroits mais toujours critiques.
Les principaux défis sont :
L’écart de dynamique : même les meilleurs moteurs physiques de 2025 peinent à modéliser la chaos, les objets déformables, les coques minces (comme la courbure et les plis des tissus), ou les erreurs d’intégration numérique. Une stratégie qui fonctionne en simulation peut échouer dans des tâches de contact intensif en conditions réelles.
L’écart de perception : si le rendu synthétique atteint un réalisme photo, il présente encore des artefacts systématiques — modèles de défauts de caméras réelles, absence de diffusion sous la surface, halos, poussière, etc.
L’écart de contrôle d’exécution : un vrai robot possède des contrôleurs cachés qui dérivent avec le temps, nécessitant un ajustement fin pour chaque unité.
L’écart environnemental : la sécurité, la latence de communication, la conformité du sol non modélisée sont difficiles à reproduire précisément en simulation.
Les données montrent que, lors de la migration des modèles fondamentaux (RT-2-X, Octo, etc.) du simulé au réel, le taux de réussite chute généralement de 40 à 80 %, avec des performances particulièrement faibles dans les tâches de déformation, contact intensif et longue durée.
En réalité, les données réelles ne sont pas encore obsolètes
Malgré les progrès dans la randomisation de domaine à grande échelle, la modélisation résiduelle, l’entraînement hybride (90-99 % synthétique + 1-10 % réel), la réalité demeure : la migration zéro-capture du simulé vers le réel reste limitée aux tâches rigides de complexité moyenne et aux environnements contrôlés.
Pour des applications impliquant des objets déformables, des fluides, des assemblages de haute précision ou des opérations domestiques non structurées, les données réelles — en particulier les démonstrations d’experts de haute qualité — conservent une valeur irremplaçable.
Que cela signifie-t-il pour les fournisseurs de données ? Les opportunités commerciales de 2026-2028 résideront dans des solutions hybrides combinant grandes quantités de synthétique et trajectoires réelles sélectionnées, notamment dans les domaines « difficiles » (tissus, liquides, scènes chaotiques, raisonnement multi-étapes). À court terme, les données synthétiques seules ne suffiront pas pour un déploiement industriel fiable.
Postface : du « quel ensemble de données » au « comment mixer »
La convergence d’OXE, LeRobot et InternData-A1 marque la fin véritable de l’ère de la fragmentation des données d’apprentissage robotique. Nous entrons dans une phase « post-ensemble de données », où la question clé n’est plus « lequel choisir », mais plutôt :
Les gagnants des 2-3 prochaines années seront ceux capables de produire des données de haute qualité, conformes aux standards, tout en conservant un avantage dans la collecte de données réelles dans des domaines de plus en plus difficiles.