¿Rueda volante de datos o muestras repetidas? La IA Física debería despedirse del «culto a las horas».

Question

> TL;DR > · El robotista Animesh Garg cuestiona que la industria tome las horas de teleoperación como indicador de capacidad del modelo. > · La recolección de datos robóticos es costosa, los datos de despliegue suelen provenir de escenarios estrechos, y las muestras repetidas se vuelven rápidamente caras. > · Lo más valioso podrían ser los fallos de cola larga, la cobertura de tareas y muestras novedosas, no el tiempo total de operación. > > Animesh Garg, robotista que fue profesor afiliado en la Universidad de Toronto y actualmente en Georgia Tech, en un artículo titulado «Moneyball for Physical AI», compara la competencia de datos de la inteligencia encarnada con el momento de «Moneyball» en la historia del béisbol. Lo que quiere desafiar es una narrativa de financiación cada vez más común: las empresas de robótica, con solo acumular más teleoperación, más despliegues reales y más horas de operación, pueden formar un volante de datos. Para los inversores, esto no es una disputa académica. La estructura de costos, la velocidad de comercialización y las barreras de los modelos de las empresas de inteligencia encarnada a menudo están empaquetadas en las cuatro palabras «bucle cerrado de datos». Si las horas acumuladas no equivalen a un progreso efectivo del modelo, el mercado necesita reevaluar los activos de datos de estas empresas. «Horas de datos» podría ser la superstición del promedio de bateo en la industria robótica===================== Garg toma prestada la analogía clásica de «Moneyball». En 2002, los Atléticos de Oakland, con una de las nóminas más bajas de la liga, ganaron 103 partidos; la clave no fue comprar jugadores más caros, sino descubrir que el mercado había valorado mal a los jugadores. Los cazatalentos tradicionales valoraban el promedio de bateo, las bases robadas y la postura, pero el indicador que mejor explicaba la capacidad de anotación del equipo era el porcentaje de embasado. En su opinión, la IA Física también podría estar en una etapa similar. La industria reconoce que los datos son esenciales para llegar a un modelo robótico general, pero es fácil tomar el indicador más fácil de mostrar como el más importante: horas acumuladas de teleoperación, número de trayectorias de demostración, número de robots desplegados, horas de funcionamiento en escenarios de producción. La forma de suministro de datos robóticos y datos de texto no es la misma. Los grandes modelos de lenguaje pueden obtener enormes cantidades de texto de bajo costo de Internet, repositorios de código, libros y páginas web; los cuellos de botella provienen más del poder computacional, la limpieza y la eficiencia del entrenamiento. Lo que los modelos robóticos necesitan son datos con interacción física, retroalimentación de acciones y cambios ambientales; cada hora de datos efectivos debe ser creada realmente, lo que implica costos de equipo, mano de obra, espacio, sensores, manejo de fallos y seguridad. El robotista Ken Goldberg describió la brecha entre los datos robóticos y los datos de IA a escala de Internet como «brecha de datos de 100.000 años». Más precisamente, los datos de texto e imagen consumidos en el entrenamiento de los modelos modernos de lenguaje visual grandes, si se convierten en tiempo de lectura o visualización humana, equivalen aproximadamente a 100.000 años, mientras que los robots carecen de datos de interacción reales de la misma escala. Esta afirmación no establece un umbral preciso para los modelos robóticos, sino que recuerda a la industria: los datos de interacción del mundo real no pueden obtenerse a bajo costo como el texto web. Esta es también la razón por la que Garg se opone a la narrativa de «teleoperación tipo taller de explotación». Una gran cantidad de teleoperación manual ciertamente puede generar muestras de entrenamiento densas en acciones, pero si las empresas solo evalúan los datos por horas totales, los fondos pueden fluir hacia muestras repetitivas, de baja dificultad y baja densidad de información, en lugar de los escenarios que más reducen la tasa de fallos. Las tres categorías de datos compran cosas diferentes============= En la clasificación de Garg, los datos de IA Física se dividen aproximadamente en tres categorías: datos de observación, datos de intervención y datos de despliegue. Todos pueden ser útiles, pero los costos, las restricciones y la densidad de información varían mucho. La primera categoría son los datos de observación, como videos en primera o tercera persona. Su ventaja es el bajo costo y la amplia cobertura, puede ayudar al modelo a comprender objetos, espacios, resultados de acciones y distribución del entorno. La desventaja también es clara: el modelo puede ver qué sucede con personas u objetos, pero no necesariamente sabe qué acción debería generar el robot en un estado determinado. La segunda categoría son los datos de intervención, es decir, trayectorias de estado a acción generadas por teleoperación, demostración e intervención humana. Este tipo de datos es más directo para el entrenamiento robótico porque contiene la cadena de «qué ve, cómo se mueve, qué sucede después del movimiento». El costo es que cada trayectoria de alta calidad debe pagarse, y los costos de mano de obra y equipo difícilmente disminuyen tan rápido como los datos de software. La tercera categoría son los datos de despliegue, es decir, los datos de telemetría generados cuando los robots operan en escenarios comerciales reales. Suena más cercano al volante comercial: el robot trabaja, gana dinero y genera datos de entrenamiento al mismo tiempo. Pero aquí hay una trampa estadística. Los escenarios robóticos que primero se implementan hoy suelen ser también los que tienen menos variación, procesos más fijos y riesgos más controlables, como almacenes altamente estructurados, fábricas o entornos de una sola tarea. Este tipo de datos de producción puede ser grande en cantidad, pero su distribución es estrecha y la repetición es alta. Una vez que el modelo aprende patrones locales, la nueva información que aporta cada hora adicional de operación disminuye. Los datos de despliegue no carecen de valor. Lo que realmente tiene valor a menudo no son los fragmentos rutinarios de «tarea completada con éxito», sino fallos, atascos, objetos anómalos, condiciones límite y perturbaciones raras. El problema es que estas muestras de cola larga no aparecen de manera estable al ritmo que la empresa desea, y los costos de detección, filtrado y revisión son más altos. Más datos son útiles, pero las muestras repetidas se vuelven caras rápidamente================= Garg es cauteloso al tomar prestada la ley de escalado de los modelos de lenguaje: el aumento de datos normalmente trae una disminución de la pérdida del modelo, pero con rendimientos decrecientes. Si las muestras son repetidas, casi repetidas, o provienen de la misma distribución estrecha, la ayuda de los nuevos datos disminuirá más rápidamente. Aplicado al campo de la robótica, este problema es más intuitivo. Un robot que aprende a agarrar una caja fija desde un estante fijo: los primeros miles de demostraciones, fallos y correcciones pueden ser muy valiosos. Una vez que las acciones, objetos, iluminación y trayectorias se han recopilado repetidamente, los nuevos datos se parecen más a copiar experiencias locales ya aprendidas. En el entrenamiento de modelos de lenguaje ya hay experiencias similares: los datos repetidos y casi repetidos desperdician el presupuesto de entrenamiento, y la repetición excesiva puede incluso dañar la generalización. Garg no aplica directamente estas conclusiones al entrenamiento robótico, sino que las usa para señalar una dirección: medir el valor de los datos no solo por la cantidad, sino también por cuán diferentes son las muestras entre sí. Para la IA Física, la diversidad tiene al menos dos significados. El primero es permitir que el modelo vea más objetos, espacios, materiales, iluminación, oclusiones y formas de operación. El segundo es evitar que el modelo se desempeñe bien en una distribución de tareas demasiado simple, pero falle al cambiarse a un escenario ligeramente diferente. Los casos de fallo de cola larga se vuelven críticos. El mundo físico real no está distribuido uniformemente; las anomalías de baja frecuencia a menudo determinan la viabilidad comercial: objetos colocados un poco torcidos, deformación del embalaje, reflejos superficiales, deslizamiento del agarre, intervención repentina de personas, sensores que pasan por alto, cambios en la fricción del suelo. Por bien que el modelo se desempeñe en muestras rutinarias, si no puede manejar estos eventos de cola, el despliegue aún se verá frenado por unos pocos fallos. Para que el volante de despliegue funcione, los escenarios tempranos deben ser suficientemente «nuevos»================== Lo que este artículo realmente desafía es la ruta de comercialización común de las empresas de inteligencia encarnada: primero desplegar robots en escenarios estrechos, garantizar la disponibilidad con intervención remota humana, recopilar datos de producción, y luego usar estos datos para entrenar modelos más fuertes y abrir más escenarios. Garg denomina a este tipo de ruta como enfoque «neo-integrador». Intenta evitar los costos de recolección pura de datos, colocando robots en la producción comercial para que los ingresos operativos compensen los costos de datos. En comparación con construir fábricas de teleoperación dedicadas, este camino suena más eficiente. Pero el volante funciona bajo una premisa: los datos generados en los escenarios comerciales tempranos deben ser suficientemente nuevos y diversos, capaces de ayudar al modelo a transferirse a más tareas. Si los escenarios de despliegue son solo tareas estrechas de baja variación, baja entropía y fuertemente personalizadas en ingeniería, los datos se saturarán rápidamente. Lo que la empresa puede obtener no es un volante de capacidades generales, sino un conjunto de proyectos personalizados que requieren integración, mantenimiento y manejo de anomalías continuos. Esto conlleva dos tipos de costos. Primero, cada vez que se ingresa a un nuevo escenario, se debe invertir en modificación del entorno, adaptación de procesos, respaldo de fallos y mecanismos de seguridad. Segundo, si el despliegue en sí mismo aún no ha alcanzado el punto de equilibrio, escalar no necesariamente significa recolectar datos a bajo costo; también podría estar intercambiando pérdidas por una gran cantidad de muestras de baja novedad. Por lo tanto, el despliegue temprano no es inútil, sino que requiere una mirada más detallada: cuánta cobertura de nuevas tareas trajo, cuántas muestras de fallos y anomalías generó, si estas muestras pueden transferirse a otros escenarios, y después de deducir los costos de hardware, mano de obra, mantenimiento e integración, cuánta mejora del modelo se compra por cada dólar. La narrativa de valoración no puede solo preguntar cuántas horas se han acumulado============== La sugerencia de Garg no es dejar de recopilar datos, sino reemplazar los criterios de evaluación. Las horas acumuladas de operación, horas de teleoperación y cantidad de trayectorias pueden servir como indicadores operativos, pero no deben equipararse directamente con el progreso del modelo. Preguntas con más poder explicativo incluyen: cuándo se saturan los datos de una sola tarea, cuánto costo de integración de ingeniería requiere agregar una nueva tarea, cuántos escenarios y clústeres de acciones diferentes cubren los datos, cuántos de los datos de producción son verdaderos cambios de distribución y muestras anómalas, cuántos fragmentos de éxito rutinario en el flujo de despliegue deberían filtrarse en lugar de seguir alimentando al modelo. Correspondiendo a las tres categorías de datos, la asignación de capital también será diferente. Los datos de observación deben priorizar bajo costo, diversidad y amplia cobertura, para expandir los límites de las capacidades básicas. Los costosos datos de teleoperación y demostración, después de alcanzar la saturación de una sola tarea, deben redirigir el presupuesto a más tareas, en lugar de seguir repitiendo la misma acción. Los datos de despliegue deben centrarse en filtrar fallos, condiciones límite y muestras fuera de la distribución, descartando grandes registros de operación rutinaria con baja densidad de información. Este punto de vista tiene un impacto real en la narrativa de valoración de la IA Física. Que una empresa tenga más robots, más tiempo de operación y un equipo de teleoperación más grande no representa automáticamente tener barreras de modelo más fuertes. La capacidad más difícil de replicar podría ser encontrar continuamente datos de cola larga de alto valor, juzgar cuándo cierto tipo de datos se satura y cubrir más distribuciones de tareas a menor costo. Sin embargo, sigue siendo una perspectiva de asignación de capital, no una conclusión de la industria. Si los modelos robóticos mostrarán rendimientos de escala similares a los de los modelos de lenguaje, si los datos de despliegue pueden generar continuamente nueva información en algunos escenarios de alta dimensión, y qué tan eficiente es la transferencia entre diferentes tareas, todo esto aún debe responderse con más resultados empíricos. La advertencia de Garg se centra en una cuestión más específica: el «indicador Moneyball» de la IA Física quizás no sean las horas de datos, sino las muestras novedosas compradas por cada dólar. Para las empresas de robótica que todavía cuentan la historia del volante de datos, lo que el mercado finalmente mirará quizás no sea cuánto tiempo de operación acumulado tienen, sino cuánta nueva información se generó realmente en ese tiempo. Haga clic para conocer los puestos vacantes en BlockBeats **Bienvenido a unirte a la comunidad oficial de BlockBeats:**Grupo de suscripción de Telegram: https://t.me/theblockbeatsGrupo de discusión de Telegram: https://t.me/BlockBeats_AppCuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia

¿Rueda volante de datos o muestras repetidas? La IA Física debería despedirse del «culto a las horas».

«Horas de datos» podría ser la superstición del promedio de bateo en la industria robótica

Las tres categorías de datos compran cosas diferentes

Más datos son útiles, pero las muestras repetidas se vuelven caras rápidamente

Para que el volante de despliegue funcione, los escenarios tempranos deben ser suficientemente «nuevos»

La narrativa de valoración no puede solo preguntar cuántas horas se han acumulado

Temas de actualidad

SKHynixTopsKOSPIByMarketCap

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Fijado