Movilizar masas de personas para entrar, JD.com tiene como objetivo "refinar píldoras de inmortalidad" con datos encarnados

16 de marzo, la declaración de JD.com sobre la creación del centro de recopilación de datos de inteligencia encarnada más grande del mundo y con la gama más completa de escenarios, ha puesto énfasis en el sector de robots, que había estado en silencio tras ser eclipsado por las noticias sobre cangrejos de río.

En cierto sentido, esto es una gran movilización de producción de datos con un fuerte carácter de Internet industrial.

Este movimiento involucra a más de 100,000 empleados internos y hasta 500,000 profesionales de diferentes industrias externas, e incluso en Suqian se movilizaron más de 100,000 ciudadanos — una estrategia sin precedentes de movilización masiva, que intenta usar la estética de la violencia a escala para atravesar la vulnerabilidad más mortal de la inteligencia encarnada: la escasez de datos.

En un contexto donde la arquitectura de modelos converge gradualmente y los umbrales de computación son relativamente transparentes, los datos de interacción física de alta calidad se han convertido en la única clave para que los robots puedan realmente integrarse en diversas industrias.

Detrás de esta operación, definida como “la mayor campaña de recopilación de datos en la historia de la humanidad”, se revela un consenso industrial: cuando el “pequeño cerebro” responsable del control de movimiento en la inteligencia encarnada se desarrolla, la clave para el futuro del sector radica en cómo alimentar un cerebro que entienda verdaderamente el mundo físico con datos de mayor calidad.

Desde la narrativa grandiosa de JD hacia la realidad microindustrial, aún es difícil determinar si los datos generados por decenas de miles de personas son un tesoro o solo grava.

Trabajadores involucrados

La razón por la que JD.com se atreve y debe lanzar esta guerra de masas de datos radica en su enorme y altamente complejo cadena de suministro propia.

A diferencia de las empresas de internet puramente de software, JD es en sí misma un gran escenario de interacción física, y la madurez de la inteligencia encarnada afecta directamente sus costos de cumplimiento y eficiencia operativa en los próximos diez años.

Este plan está profundamente ligado al ecosistema de la industria robótica en Yizhuang, Beijing.

El Parque de Desarrollo Económico y Tecnológico de Yizhuang ya alberga más de 300 empresas relacionadas con robots, con una cadena industrial que supera los 10 mil millones de yuanes y más de 40 escenarios de aplicación real, convirtiéndose en el núcleo de la industria de robots humanoides en China. Como empresa radicada en Yizhuang, JD ha lanzado previamente un plan acelerado para la industria robótica.

La inversión masiva en centros de recopilación de datos y otras infraestructuras blandas en este momento, en realidad, busca complementar un eslabón clave que falta en la cadena industrial. Yizhuang proporciona “el torso” y los escenarios de prueba, mientras JD intenta inyectar en los robots conocimientos básicos para entender el mundo real a través de escenarios masivos.

Este resonancia entre infraestructura blanda y dura busca crear un ciclo comercial completo, desde el flujo de datos hasta la iteración del hardware.

Coordinar a decenas de miles de personas no es tarea sencilla.

Según el plan, los escenarios de recopilación abarcan logística, industria y retail. En la práctica, probablemente dependa de la red de gestión digital existente de JD. Por ejemplo, hacer que los repartidores y los empleados de almacén usen dispositivos portátiles con sensores visuales, e incluso de fuerza, para realizar tareas diarias.

Desde la perspectiva de los empleados en primera línea y de los ciudadanos movilizados en Suqian, esta operación está llena de complejidades.

Los empleados, sin saberlo, se convierten en maestros de datos para los robots, cuyo objetivo futuro es reemplazar el trabajo humano de alta intensidad. Cómo diseñar mecanismos de incentivos salariales y distribución de beneficios adecuados, para evitar resistencias, es una cuestión que JD debe considerar.

Sin embargo, aún no hay detalles claros sobre cómo se implementará esto en la práctica.

Un empleado de JD en Beijing comentó a Wall Street Journal que, por ahora, no ha oído nada al respecto. En su opinión, si hay una compensación correspondiente, sería una acción de mercado, y la voluntad de participar dependerá de cada individuo. Otro empleado en Suqian también dijo que no ha recibido ninguna notificación.

Aunque en las declaraciones oficiales se afirma que “toda recopilación de datos será estrictamente conforme a la ley y regulaciones”, la realidad suele ser más compleja.

En el escenario del reparto, las líneas de producción en almacenes están estandarizadas, pero la entrega a domicilio y los escenarios minoristas involucran características faciales y datos de privacidad de millones de consumidores.

En un contexto de regulaciones de datos cada vez más estrictas, la desidentificación y limpieza de los datos no estructurados recopilados de decenas de miles de personas puede tener costos astronómicos.

La paradoja de Moravec

En 1988, el robotólogo Hans Moravec concluyó lo siguiente:

“Es fácil hacer que una computadora alcance el nivel de un adulto en pruebas de inteligencia o ajedrez, pero es extremadamente difícil, casi imposible, que tenga las capacidades sensoriales y motrices de un bebé de un año.”

Hoy, la principal reflexión de la paradoja de Moravec en la inteligencia encarnada se centra en el vacío de datos de la industria.

El éxito de los grandes modelos se basa en consumir directamente billones de textos de alta calidad acumulados en internet durante treinta años. Pero el mundo físico no tiene un internet preexistente. Para que la inteligencia encarnada escale en el mundo real, enfrenta una barrera de datos enorme.

La reciente movilización de JD apunta precisamente a este problema y a las dificultades en la recopilación de datos.

Primero, las limitaciones de la simulación aún deben resolverse.

Actualmente, la principal vía de obtención de datos en la industria se ha fragmentado y enfrenta cuellos de botella en cada método.

La mayoría de las startups dependen en gran medida de entornos simulados, como Isaac Sim de Nvidia o MuJoCo, que permiten a los robots aprender en entornos virtuales millones de veces mediante aprendizaje reforzado. Este método es barato, rápido y no arriesga hardware real.

Sin embargo, los expertos cada vez son más conscientes de las limitaciones de “Sim-to-Real”.

La complejidad del mundo físico no solo radica en cambios visuales de luz y sombra, sino en feedback físico muy sutil, como la flexión de cables, la deformación no rígida de la ropa, pequeñas variaciones en la fricción al atornillar, o incluso el ruido electromagnético en los sensores.

Los motores físicos actuales no pueden simular perfectamente estas leyes físicas de alta dimensión y no lineales. Esto provoca que modelos que funcionan perfectamente en simulación tengan graves fallos o distorsiones al desplegarlos en el mundo real.

Dado que la brecha en la simulación persiste, la alternativa es volver al mundo real.

Desde el Mobile ALOHA de Stanford, que se hizo viral, hasta empresas líderes como Figure AI, Yushù y Zhiyuan, que utilizan ampliamente la teleoperación — controlando robots con trajes de captura de movimiento o VR, como si fueran avatares, para registrar datos visuales, de articulaciones y de fuerza desde la primera persona —, esta sigue siendo la forma de obtención de datos de mayor calidad reconocida.

Pero esto enfrenta el segundo gran problema comercial de la recopilación de datos: una inversión que no es rentable.

Se estima que el costo de hardware de un robot humanoide completo puede llegar a cientos de miles o millones de yuanes, y la recopilación efectiva de datos mediante teleoperación requiere no solo hardware costoso, sino también pagar a operadores especializados.

Wall Street Journal supo que un solo conjunto de datos de interacción compleja puede costar varios cientos de dólares en recopilación y limpieza, con una tasa de fallos muy alta.

Este modo artesanal y manual de recopilar datos no puede sostener la escala de parámetros en miles de millones que requiere la inteligencia encarnada para volverse general.

Para reducir barreras, gigantes como Google han lanzado planes de conjuntos de datos de código abierto, como Open X-Embodiment, que buscan centralizar datos de laboratorios globales para toda la industria. En China, algunas empresas también han abierto conjuntos de datos de millones de horas de robots reales.

Pero aquí surge otra gran dificultad: la fragmentación extrema del hardware robótico.

Perros, ruedas, humanoides bipeda, e incluso diferentes fabricantes, tienen distintas articulaciones, torques, disposiciones de sensores y centros de gravedad.

Un conjunto de datos de alta calidad entrenado en un brazo UR5 no puede transferirse directamente a un robot como Tesla Optimus o un robot logístico de JD.

La dificultad de “mapeo entre diferentes plataformas” hace que la mayoría de los datos abiertos se conviertan en islas dispersas, sin poder generar efectos de escala.

Quizá, bajo estas tres grandes dificultades, la lógica de negocio en la carrera de la inteligencia encarnada ya ha cambiado: quien tenga escenarios reales de implementación, tendrá la ventaja de obtener datos de alta calidad y bajo costo de forma continua.

Esto explica por qué Tesla y JD han optado por rutas muy diferentes a las startups puramente hardware.

Tesla, con su enorme Gigafábrica, permite que Optimus pruebe y error en línea en la línea de clasificación de baterías; mientras JD intenta crear una línea de producción de datos semi-automatizada usando su vasta red logística, millones de trabajadores y su sistema minorista físico.

Este enfoque convierte las barreras de la cadena de suministro en barreras de datos en la era de la IA.

En contraste, muchas startups sin escenarios propios deben transformarse: vender hardware a universidades y centros de investigación a bajo costo, a cambio de que investigadores compartan datos; o alquilar espacios en fábricas, o contratar a proveedores emergentes de datos de inteligencia encarnada como JianZhi para personalizar conjuntos de datos.

Se puede decir que, con su entrada, JD ha roto el velo de la industria de la inteligencia encarnada, llevándola a una fase de competencia basada en capital, escenarios y mano de obra, en un ciclo de activos pesados.

Frente a la escasez de datos, la ventaja de los algoritmos se está diluyendo, y los gigantes que controlan las entradas de interacción física real están tejiendo silenciosamente una red que los acerca a la AGI.

Datos de alta calidad cada vez más escasos

Frente al plan de JD de “acumular más de 10 millones de horas de datos de escenarios reales en dos años”, la reacción de la industria no es un entusiasmo unánime, sino más bien una evaluación fría y racional.

En el contexto de la inteligencia encarnada, la calidad y modalidad de los datos son mucho más importantes que la mera duración.

El sector de algoritmos señala que el problema central no es la falta de videos en primera persona desde la perspectiva humana, sino de “pares de estado y acción” que incluyan retroalimentación física precisa.

Por ejemplo, ciudadanos de Suqian con cámaras en supermercados, o repartidores grabando sus entregas, generan una gran cantidad de datos visuales generalizados a nivel internet.

Estos datos son valiosos para entrenar modelos del mundo que permitan a los robots entender qué es una puerta o una manzana; pero para aprender a controlar, por ejemplo, cuánta fuerza aplicar para no aplastar la fruta, estos datos visuales son casi inútiles.

Un experto en robótica dijo a Wall Street Journal que lo que realmente necesita la industria son datos valiosos, especialmente datos reales de robots en funcionamiento. En su opinión, la operación de JD en Suqian sigue siendo un negocio de externalización de procesos (BPO), proporcionando personal y espacio.

Al manipular objetos físicos, los humanos dependen de una complejísima retroalimentación táctil, de fuerza y de ajuste espacial, que los dispositivos portátiles comunes no pueden captar. Si los decenas de miles de empleados solo contribuyen con videos, la pérdida en convertirlos en acciones ejecutables por robots será altísima.

Otro líder de una empresa de robótica en China afirmó que el principal problema del sector es la “falta de un estándar unificado para conjuntos de datos”.

Por ejemplo, cada empresa tiene diferentes grados de libertad en las articulaciones, sensores, tipos de actuadores. ¿Cómo mapear los datos de millones de horas de movimiento humano a diferentes plataformas robotizadas?

Sin un estándar unificado, estos datos solo nutrirán a los robots propios de JD, sin poder convertirse en infraestructura que impulse el avance de toda la industria.

Quizá por eso JD, en su primer año, enfatizó especialmente en la recopilación de “100,000 horas de datos de plataformas robotizadas”. La verdadera dirección del desarrollo industrial será la preentrenamiento con videos generalizados de humanos, el ajuste fino con datos de alta calidad de plataformas robotizadas, y el aprendizaje reforzado para autoevolución.

El anuncio de JD de construir un centro de recopilación de datos de inteligencia encarnada marca el inicio de un intento de las empresas nacionales de abordar de forma escalada y sistemática la escasez de datos en la industria robótica.

La combinación de escenarios físicos y gran fuerza laboral puede ofrecer un nuevo camino para la acumulación de datos.

Pero, para que realmente surja la “inteligencia emergente” en los robots, no basta con acumular datos en volumen.

Cómo garantizar la alta dimensión y calidad en la recopilación masiva, cómo establecer estándares unificados, y cómo gestionar la privacidad y la conformidad en la escala, serán temas que las empresas y toda la industria deberán resolver en la fase de comercialización.

Aviso de riesgo y exención de responsabilidad

El mercado tiene riesgos, la inversión debe ser cautelosa. Este artículo no constituye consejo de inversión personal ni considera objetivos, situación financiera o necesidades específicas de cada usuario. Los usuarios deben evaluar si las opiniones, puntos de vista o conclusiones aquí expresados son adecuados a su situación particular. La responsabilidad por la inversión es del lector.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado