¿Volante de datos? ¿Muestras repetidas? Los robots deberían despedirse del «culto a las horas».

Question

曾任、兼任多伦多大学并现任佐治亚理工的机器人学者 Animesh Garg，在一篇题为《Moneyball for Physical AI》的文章中，把具身智能的数据竞赛比作棒球史上的「金球」时刻。 Animesh Garg, un robotista que fue y sigue siendo profesor en la Universidad de Toronto y actualmente en Georgia Tech, comparó en un artículo titulado "Moneyball for Physical AI" la competencia de datos de la IA encarnada con el momento "Moneyball" en la historia del béisbol.

他想挑战的是一个越来越常见的融资叙事：机器人公司只要堆更多遥操作、更多真实部署、更多运行小时，就能形成数据飞轮。 Lo que busca desafiar es una narrativa de financiación cada vez más común: que las empresas de robots pueden formar un volante de datos simplemente acumulando más teleoperación, más despliegues reales y más horas de operación.

对投资者来说，这不是学术口水战。 Para los inversores, esto no es una guerra de palabras académica.

具身智能公司的成本结构、商业化速度和模型壁垒，很多时候都被包装进「数据闭环」这四个字里。 La estructura de costos, la velocidad de comercialización y las barreras de modelos de las empresas de IA encarnada a menudo se envuelven en las cuatro palabras "bucle de datos cerrado".

如果累计小时数并不等于有效模型进步，市场就需要重新看待这些公司的数据资产。 Si las horas acumuladas no equivalen a un progreso efectivo del modelo, el mercado necesita reevaluar los activos de datos de estas empresas.

「数据小时数」可能是机器人行业的打击率迷信

Las "horas de datos" podrían ser la superstición del promedio de bateo en la industria robótica

Garg 借用了《Moneyball》的经典类比。 Garg tomó prestada la analogía clásica de "Moneyball".

2002 年奥克兰运动家队以联盟低薪资球队之一的阵容赢下 103 场比赛，关键不是买到更贵的球员，而是发现市场错估了球员价值。 En 2002, los Atléticos de Oakland ganaron 103 juegos con una de las nóminas más bajas de la liga; la clave no fue comprar jugadores más caros, sino descubrir que el mercado había valorado incorrectamente a los jugadores.

传统球探看重打击率、盗垒和姿势，但更能解释球队得分能力的指标，是上垒率。 Los cazatalentos tradicionales valoraban el promedio de bateo, el robo de bases y la postura, pero el indicador que mejor explicaba la capacidad de anotación del equipo era el porcentaje de embasamiento.

在他看来，Physical AI 也可能处在类似阶段。 En su opinión, la IA física también podría estar en una etapa similar.

行业承认数据是通向通用机器人模型的必需品，却容易把最容易展示的指标当成最重要的指标：累计遥操作小时、示教轨迹数量、部署机器人数量、生产场景运行时长。 La industria reconoce que los datos son esenciales para los modelos robóticos generales, pero tiende a considerar los indicadores más fáciles de mostrar como los más importantes: horas totales de teleoperación, número de trayectorias de enseñanza, cantidad de robots desplegados, tiempo de ejecución en escenarios de producción.

机器人数据和文本数据的供给方式并不一样。 La forma en que se suministran los datos robóticos y los datos textuales no es la misma.

大语言模型可以从互联网、代码库、书籍和网页中获得海量低成本文本，瓶颈更多来自算力、清洗和训练效率。 Los grandes modelos de lenguaje pueden obtener enormes cantidades de texto de bajo costo de Internet, bibliotecas de código, libros y páginas web; el cuello de botella proviene más del poder computacional, la limpieza y la eficiencia del entrenamiento.

机器人模型需要的是带有物理交互、动作反馈和环境变化的数据，每一小时有效数据都要被真实创造出来，背后对应设备、人力、场地、传感器、失败处理和安全成本。 Los modelos robóticos requieren datos con interacción física, retroalimentación de acciones y cambios ambientales; cada hora de datos efectivos debe generarse realmente, lo que implica costos de equipo, mano de obra, espacio, sensores, manejo de fallas y seguridad.

机器人学者 Ken Goldberg 曾用「100,000-year data gap」形容机器人与互联网规模 AI 数据之间的差距。 El robotista Ken Goldberg describió la brecha entre los datos robóticos y los datos de IA a escala de Internet como una "brecha de datos de 100,000 años".

更准确地说，当代大型视觉语言模型训练所消耗的文本和图像数据，如果折算成人类阅读或观看时间，约相当于 10 万年，而机器人缺少同等规模的真实交互数据。 Más precisamente, los datos de texto e imágenes consumidos en el entrenamiento de los grandes modelos visuales de lenguaje actuales, si se convierten en tiempo de lectura o visualización humana, equivalen a aproximadamente 100,000 años, mientras que los robots carecen de datos de interacción real a una escala similar.

这个说法不是在给机器人模型设定精确门槛，而是在提醒行业：真实世界交互数据无法像网页文本一样被低成本抓取。 Esta afirmación no establece un umbral preciso para los modelos robóticos, sino que advierte a la industria: los datos de interacción del mundo real no se pueden obtener a bajo costo como el texto de las páginas web.

这也是 Garg 反对「血汗工厂式遥操作」叙事的原因。 Esta es también la razón por la que Garg se opone a la narrativa de la "teleoperación tipo taller de explotación".

大量人工遥操作确实能带来动作密集的训练样本，但如果公司只按总小时数评价数据，资金可能流向重复、低难度、低信息密度的样本，而不是最能降低失败率的场景。 Una gran cantidad de teleoperación humana ciertamente puede generar muestras de entrenamiento densas en acciones, pero si las empresas evalúan los datos solo por el total de horas, los fondos pueden fluir hacia muestras repetitivas, de baja dificultad y baja densidad de información, en lugar de escenarios que reduzcan más las tasas de falla.

三类数据买到的东西并不一样

Lo que se compra con los tres tipos de datos no es lo mismo

在 Garg 的分类里，Physical AI 数据大致分为三类：观察数据、干预数据和部署数据。 En la clasificación de Garg, los datos de la IA física se dividen aproximadamente en tres categorías: datos de observación, datos de intervención y datos de despliegue.

它们都可能有用，但成本、约束和信息密度差异很大。 Todos pueden ser útiles, pero los costos, las restricciones y la densidad de información varían mucho.

第一类是观察数据，比如第一人称或第三人称视频。 La primera categoría son los datos de observación, como videos en primera o tercera persona.

它的优势是成本低、覆盖广，可以帮助模型理解物体、空间、动作结果和环境分布。 Su ventaja es el bajo costo y la amplia cobertura, lo que ayuda al modelo a comprender objetos, espacios, resultados de acciones y distribuciones ambientales.

短板也很清楚：模型能看到人或物体发生了什么，却未必知道机器人在某一状态下应该输出怎样的动作。 La debilidad también es clara: el modelo puede ver qué sucede con personas u objetos, pero no necesariamente sabe qué acción debe generar el robot en un estado determinado.

第二类是干预数据，也就是遥操作、示教和人工介入生成的状态到动作轨迹。 La segunda categoría son los datos de intervención, es decir, las trayectorias de estado a acción generadas por teleoperación, enseñanza e intervención humana.

这类数据对机器人训练更直接，因为它包含「看见什么、怎么动、动完发生什么」的链条。 Este tipo de datos es más directo para el entrenamiento robótico porque contiene la cadena de "qué ve, cómo se mueve, qué sucede después del movimiento".

代价是每一条高质量轨迹都要花钱买，人力和设备成本很难像软件数据那样快速下降。 El costo es que cada trayectoria de alta calidad debe comprarse, y los costos de mano de obra y equipo difícilmente pueden disminuir tan rápido como los datos de software.

第三类是部署数据，即机器人在真实商业场景运行时产生的遥测数据。 La tercera categoría son los datos de despliegue, es decir, los datos de telemetría generados cuando los robots operan en escenarios comerciales reales.

它听起来最接近商业飞轮：机器人一边干活、一边赚钱、一边产生训练数据。 Suena más cercano al volante de datos comercial: el robot trabaja, gana dinero y genera datos de entrenamiento al mismo tiempo.

但这里有一个统计陷阱。 Pero aquí hay una trampa estadística.

今天最先落地的机器人场景，通常也是变化最少、流程最固定、风险最可控的场景，例如高度结构化的仓储、工厂或单一任务环境。 Los escenarios robóticos que se implementan primero hoy en día suelen ser aquellos con menos variación, procesos más fijos y riesgos más controlables, como almacenes altamente estructurados, fábricas o entornos de tareas únicas.

这类生产数据数量可能很大，但分布较窄、重复度较高。 Este tipo de datos de producción puede ser grande en cantidad, pero su distribución es estrecha y la repetitividad es alta.

模型一旦学到局部规律，后续每多运行一小时带来的新增信息就会下降。 Una vez que el modelo aprende patrones locales, la nueva información que aporta cada hora adicional de operación disminuye.

部署数据并非没有价值。 Los datos de despliegue no carecen de valor.

真正有价值的，往往不是大量「成功完成任务」的常规片段，而是失败、卡住、异常物体、边界条件和罕见扰动。 Lo que realmente tiene valor no suele ser la gran cantidad de fragmentos regulares de "tareas completadas con éxito", sino fallas, atascos, objetos anómalos, condiciones límite y perturbaciones raras.

问题在于，这些长尾样本不会按公司希望的节奏稳定出现，发现、筛选和复盘成本也更高。 El problema es que estas muestras de cola larga no aparecen de manera estable al ritmo que la empresa desea, y los costos de descubrimiento, selección y revisión son más altos.

Más datos son útiles, pero las muestras repetitivas se vuelven rápidamente costosas

Garg 对语言模型 scaling law 的借鉴比较谨慎：数据增加通常会带来模型损失下降，但收益递减。 Garg es cauteloso al tomar prestada la ley de escalamiento de los modelos de lenguaje: el aumento de datos generalmente reduce la pérdida del modelo, pero con rendimientos decrecientes.

如果样本重复、近似重复，或来自同一个窄分布，新增数据的帮助会更快变小。 Si las muestras son repetitivas, aproximadamente repetitivas o provienen de una misma distribución estrecha, la ayuda de los nuevos datos disminuye más rápido.

放到机器人领域，这个问题更直观。 En el campo de la robótica, este problema es más intuitivo.

一个机器人学习从固定货架抓取固定包装盒，前几千次示教、失败和修正可能非常有价值。 Un robot que aprende a agarrar una caja fija de un estante fijo: los primeros miles de demostraciones, fallas y correcciones pueden ser muy valiosos.

一旦动作、物体、光照和路径都被反复采集，新增数据更像是在复制已经学过的局部经验。 Una vez que las acciones, objetos, iluminación y trayectorias se han recolectado repetidamente, los nuevos datos se parecen más a copiar la experiencia local ya aprendida.

语言模型训练中已经有类似经验：重复和近重复数据会浪费训练预算，过度重复还可能损害泛化。 En el entrenamiento de modelos de lenguaje ya hay experiencias similares: los datos repetitivos y casi repetitivos desperdician el presupuesto de entrenamiento, y el exceso de repetición puede incluso perjudicar la generalización.

Garg 并没有把这些结论直接套到机器人训练上，而是用它们说明一个方向：衡量数据价值不能只看数量，还要看样本之间到底有多大差异。 Garg no aplica directamente estas conclusiones al entrenamiento robótico, sino que las usa para señalar una dirección: medir el valor de los datos no solo por la cantidad, sino también por cuán diferentes son las muestras entre sí.

对 Physical AI 来说，多样性至少有两层含义。 Para la IA física, la diversidad tiene al menos dos significados.

第一是让模型见过更多物体、空间、材质、光照、遮挡和操作方式。 El primero es que el modelo haya visto más objetos, espacios, materiales, iluminación, oclusiones y formas de manipulación.

第二是避免模型在一个过于简单的任务分布里表现很好，换到稍微不同的场景就失效。 El segundo es evitar que el modelo funcione bien en una distribución de tareas demasiado simple, pero falle al cambiar a escenarios ligeramente diferentes.

长尾失败案例因此变得关键。 Por lo tanto, los casos de falla de cola larga se vuelven cruciales.

真实物理世界不是均匀分布的，低频异常经常决定商业可用性：物体摆放偏一点、包装变形、表面反光、抓手打滑、人突然介入、传感器漏看、地面摩擦变化。 El mundo físico real no está distribuido uniformemente; las anomalías de baja frecuencia a menudo determinan la viabilidad comercial: objetos colocados un poco torcidos, empaques deformados, superficies reflectantes, deslizamiento del agarre, intervención humana repentina, sensores que pasan por alto, cambios en la fricción del suelo.

模型在常规样本上表现再好，如果处理不了这些尾部事件，部署仍会被少数失败拖住。 No importa qué tan bien funcione el modelo en muestras regulares, si no puede manejar estos eventos de cola, el despliegue se verá obstaculizado por unas pocas fallas.

部署飞轮成立，需要早期场景足够「新」

El volante de despliegue es viable solo si los escenarios tempranos son suficientemente "nuevos"

这篇文章真正挑战的，是具身智能公司常见的商业化路线：先在窄场景中部署机器人，用人类远程接管保证可用性，同时收集生产数据，再用这些数据训练更强模型，打开更多场景。 Lo que este artículo realmente desafía es la ruta de comercialización común de las empresas de IA encarnada: desplegar primero robots en escenarios estrechos, usar la supervisión remota humana para garantizar la disponibilidad, recolectar datos de producción, y luego usar esos datos para entrenar modelos más fuertes y abrir más escenarios.

Garg 将这类路径称为「neo-integrator」式思路。 Garg llama a este tipo de ruta como enfoque "neo-integrador".

它试图绕开纯数据采集成本，把机器人放进商业生产中，让运营收入抵消数据成本。 Intenta evitar los costos puros de recolección de datos colocando robots en la producción comercial y dejando que los ingresos operativos compensen los costos de datos.

相比专门搭建遥操作工厂，这条路听起来更高效。 En comparación con construir fábricas de teleoperación dedicadas, este camino suena más eficiente.

但飞轮成立有一个前提：早期商业场景产生的数据，必须足够新、足够多样，能帮助模型迁移到更多任务。 Pero el volante tiene una premisa: los datos generados en escenarios comerciales tempranos deben ser suficientemente nuevos y diversos para ayudar al modelo a transferirse a más tareas.

如果部署场景只是低变化、低熵、强工程定制的窄任务，数据就会很快饱和。 Si los escenarios de despliegue son solo tareas estrechas con baja variación, baja entropía y fuerte personalización de ingeniería, los datos se saturarán rápidamente.

公司得到的可能不是通用能力飞轮，而是一组需要持续集成、维护和异常处理的定制项目。 Lo que la empresa obtiene puede no ser un volante de capacidades generales, sino un conjunto de proyectos personalizados que requieren integración, mantenimiento y manejo de anomalías continuos.

这会带来两类成本。 Esto conlleva dos tipos de costos.

第一，每进入一个新场景，都要投入环境改造、流程适配、失败兜底和安全机制。 Primero, cada vez que se ingresa a un nuevo escenario, se deben invertir en modificaciones del entorno, adaptación de procesos, respaldo de fallas y mecanismos de seguridad.

第二，如果部署本身还没有达到盈亏平衡，扩大规模就不一定是在低成本收集数据，也可能是在用亏损换取大量低新颖性样本。 Segundo, si el despliegue en sí mismo aún no ha alcanzado el punto de equilibrio, escalar no necesariamente significa recolectar datos a bajo costo, sino que también puede significar intercambiar pérdidas por una gran cantidad de muestras de baja novedad.

所以，早期部署不是无用，而是需要更细地看：它带来了多少新任务覆盖，产生了多少失败和异常样本，这些样本能否迁移到其他场景，扣除硬件、人力、维护和集成成本后，每一美元买到的模型改进有多少。 Por lo tanto, el despliegue temprano no es inútil, sino que requiere un análisis más detallado: cuánta cobertura de nuevas tareas aporta, cuántas muestras de fallas y anomalías genera, si esas muestras pueden transferirse a otros escenarios, y cuánta mejora del modelo se obtiene por cada dólar después de deducir los costos de hardware, mano de obra, mantenimiento e integración.

估值叙事不能只问攒了多少小时

La narrativa de valoración no puede solo preguntar cuántas horas se han acumulado

Garg 给出的建议不是停止采集数据，而是替换评价口径。 El consejo de Garg no es dejar de recolectar datos, sino reemplazar la métrica de evaluación.

累计运行小时、遥操作小时和轨迹数量可以作为运营指标，但不应被直接等同于模型进步。 Las horas totales de operación, las horas de teleoperación y el número de trayectorias pueden servir como indicadores operativos, pero no deben equipararse directamente al progreso del modelo.

更有解释力的问题包括：单个任务的数据什么时候饱和，新增一个任务需要多少工程集成成本，数据覆盖了多少不同场景和动作簇，生产数据中有多少是真正的分布漂移和异常样本，部署流里有多少常规成功片段应该被过滤掉，而不是继续喂给模型。 Las preguntas más explicativas incluyen: cuándo se saturan los datos de una tarea individual, cuánto costo de integración de ingeniería requiere agregar una nueva tarea, cuántos escenarios y grupos de acciones diferentes cubren los datos, cuántos de los datos de producción son verdaderas desviaciones de distribución y muestras anómalas, y cuántos fragmentos de éxito regular en el flujo de despliegue deberían filtrarse en lugar de seguir alimentando al modelo.

对应到三类数据，资本配置也会不同。 Correspondiendo a los tres tipos de datos, la asignación de capital también será diferente.

观察数据应优先追求低成本、多样性和广覆盖，用来扩大基础能力边界。 Los datos de observación deben priorizar el bajo costo, la diversidad y la amplia cobertura, para expandir la frontera de capacidades básicas.

高成本的遥操作和示教数据在达到单任务饱和后，应把预算转向更多任务，而不是继续重复同一动作。 Los costosos datos de teleoperación y enseñanza, después de alcanzar la saturación de una sola tarea, deben redirigir el presupuesto hacia más tareas, en lugar de seguir repitiendo la misma acción.

部署数据则应重点筛选失败、边界条件和分布外样本，丢弃大量信息密度低的常规运行记录。 Los datos de despliegue deben centrarse en filtrar fallas, condiciones límite y muestras fuera de distribución, descartando una gran cantidad de registros de operación regular con baja densidad de información.

这套观点对 Physical AI 的估值叙事有现实影响。 Este conjunto de puntos de vista tiene un impacto real en la narrativa de valoración de la IA física.

一个公司拥有更多机器人、更长运行时间、更大遥操作团队，并不自动代表拥有更强模型壁垒。 Una empresa que tiene más robots, más tiempo de operación y un equipo de teleoperación más grande no representa automáticamente una barrera de modelo más fuerte.

更难复制的能力，可能是持续找到高价值长尾数据、判断某类数据何时饱和，以及用更低成本覆盖更多任务分布。 La capacidad más difícil de replicar puede ser encontrar continuamente datos de cola larga de alto valor, determinar cuándo se satura un tipo de datos y cubrir más distribuciones de tareas a un costo menor.

不过，这仍是一套资本配置视角，还不是行业定论。 Sin embargo, sigue siendo una perspectiva de asignación de capital, no una conclusión de la industria.

机器人模型是否会出现类似语言模型的规模收益，部署数据能否在某些高维场景持续产生新信息，不同任务之间的迁移效率有多高，都还要靠更多实证结果回答。 Si los modelos robóticos mostrarán rendimientos de escala similares a los modelos de lenguaje, si los datos de despliegue pueden generar continuamente nueva información en ciertos escenarios de alta dimensión, y qué tan eficiente es la transferencia entre diferentes tareas, todo debe responderse con más resultados empíricos.

Garg 的提醒落在一个更具体的问题上：Physical AI 的「金球指标」也许不是数据小时数，而是每一美元买到的新颖样本。 La advertencia de Garg se centra en una pregunta más específica: el "indicador Moneyball" de la IA física quizás no sean las horas de datos, sino las muestras novedosas compradas con cada dólar.

对于仍在用数据飞轮讲故事的机器人公司，市场最终要看的可能不是累计运行时间有多长，而是这些时间里到底产生了多少新信息。 Para las empresas robóticas que aún cuentan historias con el volante de datos, lo que el mercado finalmente mirará probablemente no sea cuánto tiempo de operación acumulado tienen, sino cuánta información nueva se generó en ese tiempo.

Ver original

¿Volante de datos? ¿Muestras repetidas? Los robots deberían despedirse del «culto a las horas».

「数据小时数」可能是机器人行业的打击率迷信

Las "horas de datos" podrían ser la superstición del promedio de bateo en la industria robótica

三类数据买到的东西并不一样

Lo que se compra con los tres tipos de datos no es lo mismo

更多数据有用，但重复样本会很快变贵

Más datos son útiles, pero las muestras repetitivas se vuelven rápidamente costosas

部署飞轮成立，需要早期场景足够「新」

El volante de despliegue es viable solo si los escenarios tempranos son suficientemente "nuevos"

估值叙事不能只问攒了多少小时

La narrativa de valoración no puede solo preguntar cuántas horas se han acumulado

Temas de actualidad

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fijado