Diálogo con Tang Wenbin de Yuanli Lingji: La ruta pura del "modelo mundial" no funciona

Una “guerra de datos” silenciosa en torno a la inteligencia embodied está comenzando.

En enero de este año, el Centro de Innovación en Robótica Humanoide de Hubei entregó a Zhiyuan Robotics miles de horas de datos de entrenamiento, completando la primera transacción de datos personalizada para robots humanoides en el país.

En cuanto a los gigantes del sector, JD.com anunció recientemente su objetivo de construir el centro de recopilación de datos de inteligencia embodied más grande y completo del mundo, con la intención de movilizar a más de 100,000 empleados internos y hasta 500,000 externos, lanzando una estrategia sin precedentes de “guerra de masas”.

Mirando al extranjero, la compañía surcoreana Robotis estableció en enero una filial en Uzbekistán, con planes de construir una enorme “fábrica de datos” en un terreno de 110,000 metros cuadrados para recopilar datos de comportamiento de robots.

Transacciones personalizadas por hora, movilización de decenas de miles de personas, construcción de fábricas en Asia Central: estas acciones reflejan la profunda “ansiedad por los datos” en toda la industria de la inteligencia embodied.

A diferencia de los grandes modelos de lenguaje que crecen en el corpus de internet, la inteligencia embodied requiere comprender el mundo y interactuar con él, lo que impone mayores requisitos en la veracidad y modalidad de los datos.

Este es uno de los desafíos que actualmente enfrenta Tang Wenbin, fundador y CEO de Yuanli Lingji.

Revisando su trayectoria, Tang Wenbin es más conocido como cofundador y CTO de Megvii, la estrella unicornio de la última ola de IA.

En solo un año, Yuanli Lingji ha recaudado silenciosamente más de 1,000 millones de yuanes, con inversiones de Alibaba, NIO, Junlian y Qiming, entre otros.

Actualmente, Yuanli Lingji ha lanzado su primer modelo grande nativo de inteligencia embodied, DM0, y ha establecido una cooperación estratégica con Huachin Technology para la producción en masa y entrega del robot de recopilación de datos DOS-W1.

Tras la experiencia de la primera ola de implementación de IA, Tang Wenbin ha desarrollado un mayor respeto por la industria.

En una entrevista reciente con Wall Street Journal y All-weather Tech, compartió su enfoque para la recopilación de datos: no depender de una única fuente, sino implementar una recopilación distribuida combinando “calidad✖, cantidad✖ y diversidad✖”, para llenar el espacio de capacidades del robot.

En cuanto a la generación de datos mediante modelos del mundo que permitan a los robots aprender por imitación, Tang Wenbin considera que esa vía es difícil de recorrer. Él propone que una estrategia más viable es fusionar el modelo del mundo con modelos VLA (visión-lenguaje-acción), que no solo predicen el futuro, sino que también deducen acciones precisas basadas en esas predicciones.

Mientras los actores del sector acumulan datos de manera frenética, el mercado espera ver qué estrategia será la que “reine al final”.

A continuación, la transcripción de la entrevista.

Detallando la recopilación de datos

All-weather Tech: ¿Podrías compartir tu enfoque para la recopilación de datos?

Tang Wenbin: Actualmente, seguimos un método que imita el aprendizaje por refuerzo.

La imitación implica simular la distribución de datos. Nuestro objetivo es llenar el espacio de capacidades del robot tanto como sea posible, exponiéndolo a muchas cosas. La clave está en la capacidad de manejar escenarios no vistos; el valor de los datos radica en esto, por lo que nuestra recopilación se centra en entornos abiertos y escenarios reales.

Pero buscamos mantener la calidad de los datos alta, a la vez que llenamos ese espacio, por lo que considero que la recopilación de datos es una combinación de “calidad✖, cantidad✖ y diversidad”.

All-weather Tech: ¿Y cómo recopilan los datos?

Tang Wenbin: En realidad, no dependemos de una única fuente de datos, eso no sería necesario. Es un enfoque de combinación. Para datos de hardware real, principalmente usamos sensores calibrados, incluyendo exoesqueletos y similares, aunque su costo de adquisición es alto.

También recopilamos datos desde perspectivas sin cuerpo propio y en primera persona, formando conjuntos de datos más grandes, que están en un punto intermedio entre datos reales y sintéticos.

Además, usamos datos de internet, que tienen menor costo de adquisición.

All-weather Tech: ¿Puedes explicar qué es la recopilación sin cuerpo propio?

Tang Wenbin: Significa que puede ser un guante o una pinza manual, sin brazo mecánico ni cuerpo de robot, solo un dispositivo en el extremo. Registramos su posición y estado aproximados. Este método también se llama UMI.

Hoy en día, también usamos datos en primera persona, como grabaciones con gafas durante operaciones, que es otra forma de recopilación sin cuerpo propio.

All-weather Tech: La privacidad de los datos de las gafas inteligentes es un tema, seguramente nadie quiere compartir sus datos. ¿Cómo lo solucionan?

Tang Wenbin: Es cierto, como usuario de gafas, no querría compartir mis datos. Pero para entrenamiento, podemos contratar recopiladores externos que usen las gafas en su rutina diaria y graben su trabajo.

También queremos que las gafas tengan funciones más avanzadas, como visión estereoscópica y múltiples capacidades. En el futuro, planeamos añadir dispositivos como pulseras y guantes para recopilar datos.

En general, nuestros objetos de recopilación son diversos: Primero, los robots mismos, que pueden ser controlados remotamente; Segundo, dispositivos sin cuerpo propio como pinzas, que combinan “cuerpo humano + extremo del robot”; Tercero, recopilación centrada en el cuerpo humano; Cuarto, descripción del mundo físico.

All-weather Tech: Por ejemplo, en los sensores en el extremo, ¿recogen principalmente datos de fuerza?

Tang Wenbin: No solo fuerza, buscamos multimodalidad, incluyendo visión adicional.

En la práctica, como los brazos pueden bloquear algunos datos, instalamos cámaras en los ojos, y en las muñecas también puede haber cámaras, formando datos desde múltiples ángulos.

All-weather Tech: ¿El costo de esta recopilación es alto?

Tang Wenbin: Es un problema complejo de calidad, cantidad y diversidad de datos. Si queremos recopilar todos los módulos, el costo sería muy alto. Por eso usamos una estrategia distribuida: algunos datos los recopilamos con la mayor integridad posible, y otros, para reducir costos y aumentar la velocidad, no tanto en la integridad.

Es un equilibrio. Contamos con nuestras propias herramientas de recopilación y colaboramos con otros sectores.

All-weather Tech: En febrero, colaboraron con Huachin para lanzar un robot de recopilación de datos. ¿Puedes contar más?

Tang Wenbin: Es un robot para investigación, similar en forma a ALOHA (un sistema de hardware abierto y de bajo costo para teleoperación bilateral). Hay otros en el mercado con este enfoque.

Pero hay dos grandes problemas en los robots de recopilación actuales:

Primero, la fiabilidad. Muchos fallos afectan la investigación, reduciendo la eficiencia. No podemos garantizar estabilidad a largo plazo, por lo que hemos simplificado el mantenimiento, diseñando estructuras modulares y desmontables. Si una parte se rompe, se puede cambiar en 30 segundos, usando conexiones de giro en lugar de tornillos.

Segundo, el costo. Colaborando con Huachin, diseñamos un producto similar a ALOHA, que soporta control maestro y esclavo, y operación por arrastre. La clave es que sea barato y rápido de reparar.

All-weather Tech: ¿Las empresas usan este robot para recopilar datos?

Tang Wenbin: Sí, la mayoría de los actores en el sector compran productos similares para complementar sus operaciones.

El camino del modelo del mundo no funciona

All-weather Tech: ¿Qué opinas sobre los modelos del mundo y VLA?

Tang Wenbin: Hay que distinguir dos cosas: entender el mundo y generarlo son diferentes.

Los grandes modelos que discutimos hoy se centran en su capacidad de comprensión. El modelo del mundo intenta predecir el futuro, como qué ocurrirá en la próxima escena, mientras que VLA implica interacción con el mundo.

Estos modelos comparten principios, pero abordan los problemas desde diferentes ángulos.

Creemos que la mejor estrategia es combinarlos. Solo así podemos entender y generar contenido, y también interactuar con el mundo.

En teoría, si podemos predecir el futuro, podemos inferir cómo actuar. Y si sabemos cómo actuar, podemos predecir cómo será el futuro.

Por eso, en nuestro marco técnico, el modelo del mundo y VLA están unificados: queremos un solo modelo que entienda y prediga el mundo.

De esta forma, el modelo no solo ejecuta acciones, sino que también predice cómo cambiará el mundo tras esas acciones.

All-weather Tech: ¿El marco técnico de la industria es diferente al vuestro?

Tang Wenbin: Es cierto, algunas empresas solo usan modelos del mundo. Algunos creen que generando datos con estos modelos, los robots pueden aprender por imitación, creando una fuente infinita de datos.

Pero creo que esa vía no funciona. Si el modelo del mundo ya predice todo, no hay necesidad de generar datos para entrenar robots.

Otra estrategia, que muchos siguen, es predecir el futuro del mundo y luego deducir las acciones necesarias, un enfoque que combina ambos aspectos en un marco unificado.

All-weather Tech: Dado que las fábricas actuales están altamente automatizadas, ¿los robots en las líneas de producción no tienen ya poco que hacer?

Tang Wenbin: La automatización en fábricas ya es madura, pero buscamos resolver problemas que antes no se podían abordar o que costaban mucho.

Muchas líneas automatizadas no requieren gran capacidad de generalización: los objetos, condiciones y tareas son limitados y controlados, como SKU específicos y condiciones de iluminación.

El verdadero desafío es la diversidad de objetos, cambios en el entorno y múltiples tareas.

Por ejemplo, en logística, los robots mueven cosas, pero no realizan operaciones precisas, que requieren alta generalización.

Comprar una botella de Coca-Cola y una bolsa de papas, y empaquetarlas, es difícil de automatizar por la variabilidad y las condiciones cambiantes.

En embalaje, por ejemplo, sellar botellas con film plástico para evitar fugas, se hace manualmente con experiencia, y automatizar eso es complicado.

Actualmente, estamos haciendo algunos experimentos en logística e industrial.

All-weather Tech: ¿Prefieren centrarse en un escenario específico o expandirse a múltiples?

Tang Wenbin: Desde la perspectiva del desarrollo de modelos, la tendencia es clara: un modelo solo para un campo vertical no tendrá verdadera capacidad de generalización. Es inviable.

Por eso, desde el punto de vista del modelo, debemos buscar la generalización y capacidades más universales.

Pero en la implementación práctica, hay que abordar un escenario a la vez, paso a paso.

En nuestra visión, el desarrollo del producto requiere cumplir dos condiciones: primero, que el sistema sea un ciclo cerrado, resolviendo todos los problemas y excepciones del cliente; segundo, que el costo sea controlado y la colaboración sea rentable.

Solo así los clientes considerarán escalar el uso de nuestros productos.

Cada implementación de escenario requiere entender claramente el valor para el cliente y asegurar estos dos puntos. Es un proceso de pedidos año tras año.

Este proceso lo describimos como la relación entre desarrollo del modelo y aplicación práctica, con un ángulo de 45 grados entre ambos, relacionados pero no idénticos.

Por supuesto, nuestro objetivo es avanzar hacia un modelo más general.

Tener respeto por los escenarios

All-weather Tech: ¿Defienden una estrategia de robots universales?

Tang Wenbin: Personalmente, creo que los modelos pueden ser universales, pero el hardware es muy difícil de hacer.

Nuestros brazos son muy versátiles: pueden realizar operaciones finas o levantar 20 kilos, incluso más, hasta 50 kilos.

Pero, por limitaciones físicas y de materiales, un brazo para objetos de 2 kg y otro para 20 kg no son iguales, por su densidad de potencia.

Creemos que si se diseña un hardware universal y se aplica en diferentes escenarios, es fácil que sea un diseño insuficiente o excesivo.

Un diseño insuficiente puede no soportar el peso, o que los sensores no tengan espacio suficiente, lo que impide resolver el problema; un diseño excesivo encarece mucho.

Por ejemplo, un robot con doble brazo con centro de gravedad alto puede ser más rápido, pero difícil de detener, y puede volcarse.

En algunos casos, puede ser mejor que esté quieto, y que un vehículo mueva los objetos hacia él.

Por eso, a veces, el exceso de diseño es un problema.

Nuestra filosofía interna es que el modelo sea general y adaptable a diferentes plataformas hardware.

All-weather Tech: ¿Los inversores valoran más la capacidad del modelo?

Tang Wenbin: Sí, nuestro equipo no solo desarrolla escenarios robóticos, sino que también profundiza en los modelos. Tenemos experiencia en logística con Megvii y una escala significativa, lo que nos da una comprensión profunda del producto, además de un equipo especializado en optimización de modelos.

All-weather Tech: Algunos sectores conocen muy bien sus necesidades, pero ustedes, que empezaron en modelos, ¿tienen menos conocimiento de los escenarios?

Tang Wenbin: En realidad, en Megvii ya trabajamos en muchos escenarios, así que nos consideramos bien entrenados.

Es una cuestión de mentalidad: en la industria de robots, hay dos grupos: unos que entienden más la tecnología, otros que entienden más los escenarios. Nosotros estamos en el medio.

Solo centrarse en la tecnología puede llevar a hacer muchas suposiciones sobre escenarios, pero los detalles en la práctica son críticos. Cuando surge un problema, no se puede detener la producción, por lo que hay que tener un plan de manejo de excepciones.

Por eso, quienes trabajan en tecnología deben tener respeto por los escenarios.

Pero también hay problemas en la industria: algunos colegas creen que la tecnología puede hacer todo, y cuando enfrentan problemas que no pueden resolver, se decepcionan y vuelven a métodos tradicionales basados en reglas.

El desarrollo actual del modelo no es ni omnipotente ni inútil; está en una fase intermedia, con una pendiente de crecimiento muy rápida.

Necesitamos personas que puedan juzgar los escenarios, entender los algoritmos y su velocidad de avance, y también diseñar cómo abordar los problemas para acelerar los proyectos.

Todo nuestro trabajo busca satisfacer necesidades, aunque tenemos limitaciones en nuestra visión.

Por eso, abogamos por aprender ampliamente y observar desde múltiples ángulos, pero también por tener criterios propios para escoger escenarios que puedan perdurar.

All-weather Tech: ¿Cómo definen su cliente objetivo? ¿Empresas de robots o aplicaciones en escenarios?

Tang Wenbin: En realidad, nos dirigimos a los aplicadores de escenarios.

Honestamente, en China y en el extranjero, los modelos que usan las empresas aún no están muy maduros. No hay aún una implementación sencilla en robots, donde un modelo entrenado pueda usarse directamente en hardware.

Creo que, en un estado de modelos aún inmaduros, la integración vertical es necesaria para la implementación en escenarios.

Si no podemos resolver un escenario nosotros mismos, sería una ilusión esperar que nuestros socios o clientes puedan hacerlo. Espero que algún día podamos desarrollar algunos escenarios verticales propios, y que otros puedan acceder a más escenarios a través de plataformas abiertas, usando nuestro hardware o solo nuestra “inteligencia”.

All-weather Tech: ¿Es por eso que abren el código de sus modelos, para que más personas puedan participar?

Tang Wenbin: La apertura del código tiene dos motivos. Primero, queremos que más personas usen nuestro marco y modelos, para explorar juntos más aplicaciones y promover la implementación de la tecnología. Segundo, aunque la industria está muy activa, la madurez de los modelos aún está en etapas iniciales, y la comunicación y colaboración son clave para avanzar.

All-weather Tech: Mencionaste que en 2026 quieren desplegar 1000 dispositivos en cada escenario, ¿cómo va ese objetivo?

Tang Wenbin: Eso se logrará probablemente en la segunda mitad del año. Actualmente, estamos en pruebas de concepto.

Tenemos confianza en la potencialidad de producción en masa en nuestros escenarios propios.

Para que los robots funcionen continuamente, hay que encontrar mecanismos de tolerancia a fallos. La realidad es que los modelos actuales no alcanzan una precisión del 100%.

¿Qué pasa si falla una tarea? Hay que tener un plan para retomar esas tareas, y evaluar el impacto de los fallos en la empresa, si es aceptable.

Tras implementar soluciones de respaldo, también hay que calcular el ROI del sistema completo.

All-weather Tech: ¿Los clientes preguntan cuánto pueden ahorrar en la línea de producción?

Tang Wenbin: Normalmente, nos preguntan cuánto tiempo tardarán en recuperar la inversión.

Si un proyecto tarda más de cinco años en rentabilizarse, no se hace.

Si en dos o tres años se recupera, se hace de inmediato. En el entorno B2B actual, la mayoría de las decisiones se basan en análisis racional, calculando cuánto mejorará la eficiencia. Por ejemplo, si el robot puede extender la operación en ciertos procesos, usando mejor los equipos existentes, genera valor para el cliente.

All-weather Tech: ¿Puedes adelantar algo sobre futuras actualizaciones de modelos?

Tang Wenbin: Este año, nuestro foco principal será en la generalización.

All-weather Tech: ¿No crees que es demasiado tarde para empezar en 2023 con modelos de inteligencia embodied?

Tang Wenbin: En realidad, hace muchos años queríamos crear un robot general, pero pensábamos que la tecnología no estaba madura. Sin embargo, con el avance de grandes modelos como DeepSeek, ahora tengo más confianza.

All-weather Tech: Si tuvieras que poner una palabra clave para la industria de la inteligencia embodied en 2026, ¿cuál sería?

Tang Wenbin: Diría dos: una, la mejora de las capacidades del modelo; dos, la operación continua en escenarios.

Creo que los modelos aún están en una etapa temprana, pero avanzan rápidamente. Debemos esforzarnos en mejorar sus algoritmos, en adaptarse a objetos, entornos y tareas, y en su capacidad de generalización. La generalización es crucial. Además, en la aplicación en escenarios, un simple POC no tiene mucho sentido; es solo un punto de partida. Lo importante es la operación continua en la práctica, y ya es hora de que eso suceda en 2023.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado