Diálogo variable independiente CTO Wang Hao: ¿Por qué el "Santo Grial" de la inteligencia encarnada es el hogar?

Autor Dale

Editora Wang Yuxing

“Los hogares son, de hecho, el santo grial de la inteligencia encarnada.” El 30 de marzo de 2026 por la mañana, en la Academia Lingzi de Shenzhen, el cofundador y CTO de Variable Robot, Wang Hao, dio esta valoración en una entrevista, entre cuyos participantes se incluyó a Phoenix Network Technology. En ese momento se celebraba el primer Congreso de Desarrolladores de Inteligencia Encarnada (EAIDC 2026); se reunían aquí las 20 mejores escuadras que pasaron a la final, con solo tres días para completar todo el proceso, desde la adquisición de datos desde cero, el entrenamiento del modelo y hasta el despliegue en el robot real.

En 2026, cuando casi todos los colegas priorizan hacerse con contratos de entornos industriales, Variable eligió un camino más aventurero. Este marzo, Variable anunció una colaboración con 58.com: desde la plataforma 58 al Hogar se asignan aleatoriamente “tías” y robots como pareja, para realizar conjuntamente servicios de asistencia doméstica, con un piloto ya en marcha en Shenzhen. El hogar, el escenario con el menor grado de estandarización y el entorno más abierto, se está convirtiendo en el campo de batalla clave en la mente de Variable para “el camino hacia los robots de propósito general”.

01 Una competición que devuelve a los robots al mundo real

El formato de la EAIDC 2026 en esta ocasión tiene bastante suspenso. Todos los equipos participantes utilizan el mismo hardware; en solo tres días, pasando por el estado de primer contacto con la base model de inteligencia encarnada y la depuración del robot real, completan el flujo completo desde la adquisición de datos hasta el despliegue en el robot real. En condiciones normales, un laboratorio de investigación profesional tarda al menos 6 meses en montar algo similar.

Según la observación de Wang Hao, ya el primer día de tarde de la competición se produjo una clara diferenciación. “Apertura con el inicio de la jornada por la tarde; y por la noche, algunos participantes todavía están ajustando el entorno, mientras que otros ya tienen resultados. Hay una gran diferencia”. Más tarde descubrió que, en comparación con los que no se ponían manos a la obra, los equipos que evaluaban con frecuencia, observaban con atención los datos y el hardware destacaban más. “Toda la inteligencia encarnada es aprendizaje por interacción: el robot encuentra problemas durante las pruebas y también mediante la observación de las personas. Cuanto más probable es que encuentre soluciones a la complejidad real del mundo físico”.

Un participante recordó que, cuando se enfrentaron por primera vez a la tarea de “colocar el anillo sobre la columna”, su tasa de éxito era solo de 20% a 30%. Tras iterar de forma constante, fue subiendo gradualmente hasta 60% a 70%.

La competición también incluye un ranking A y un ranking B: el entorno del ranking A es controlable, para que los participantes puedan validar rápidamente la capacidad del modelo; el ranking B es una caja completamente negra, que pone a prueba la capacidad de generalización del modelo bajo cambios en iluminación, fondo, objetos de operación y posiciones de operación. Wang Hao dijo que esta es la intención original de hacer la competición: “Queremos, a través de esta competición, que todo el proyecto open source reduzca realmente el umbral de uso para los desarrolladores y se construya una interfaz relativamente más general y estándar”.

En la industria de inteligencia encarnada, que depende durante mucho tiempo de la evaluación por simulación, el entorno de simulación puede acelerar la iteración, pero es difícil reproducir la complejidad del mundo real; siempre existe la brecha sim2real (método de transferencia técnica del entorno simulado al mundo real). Wang Hao admite: “Si se depende a largo plazo de la evaluación por simulación, inevitablemente se ocultan los límites reales de la capacidad del modelo”. Y esta EAIDC, como un “escenario de exhibición con robot real”, intenta volver a poner en el mismo mundo real la evaluación, el entrenamiento y la adquisición de datos.

02 ¿Un “nuevo relato” de extremo a extremo?

Variable eligió desde el principio la ruta de “unificar el cerebro grande y el cerebro pequeño con un modelo de lenguaje de extremo a extremo”. A nivel de arquitectura tecnológica, el equipo intenta fusionar el world model con un modelo VLA (visión-lenguaje-acción) en un marco conjunto.

Wang Hao explicó la lógica subyacente de esa ruta. “La base de entrenamiento del gran modelo de lenguaje todavía debe usarse; pero lo que queremos es llevar el lenguaje y la acción a un mismo espacio, en lugar de, como antes, hacer que toda la visión sirva al lenguaje. La información que describe el lenguaje es muy macro; la interacción del mundo físico ocurre en escalas de centímetros y segundos. Entre ambos hay una brecha enorme de información. Si adoptamos una forma nativa multimodal, las acciones pueden mostrar de manera muy clara tanto en lo macro como en lo micro; entonces la visión deja de ser una observación estática y se convierte en una visión que comprende el movimiento”.

Esto contrasta con el diseño simplificado de muchos modelos VLA actuales. Observadores de la industria señalaron que muchos modelos encarnados todavía tienden a simplificarse y que la mayoría de los modelos VLA todavía dependen de entradas de una sola imagen.

Wang Hao cree que el mayor desafío del modelo de extremo a extremo está en la complejidad del entrenamiento y en los requisitos de escala. “Si no se cumplen esas dos condiciones, elegir extremo a extremo no necesariamente tendrá mejores resultados que elegir modelos especializados por vertical o modelos jerárquicos. El extremo a extremo significa que debe haber un efecto de escala: la cantidad de datos y la de parámetros del modelo deben aumentar”. Además, la evaluación de la inteligencia encarnada es más complicada que la de los grandes modelos de lenguaje: “Los grandes modelos de lenguaje pueden mirar la curva de loss; pero para la inteligencia encarnada, a menudo no es así. El loss no refleja tu desempeño en el mundo real, porque el mundo real es un sistema de lazo cerrado”.

Otra estrategia central de Variable es insistir en la adquisición de datos con robots reales en el mundo real. Wang Hao dijo que, en todo aprendizaje interactivo y aprendizaje por refuerzo, los datos más importantes provienen de robots reales: “Esta adquisición de datos no se va a detener; continuará haciéndose”. Pero también reveló que en 2026 habrá un gran cambio: “Cada vez dependeremos más de la forma de que las personas recopilen datos mediante dispositivos de vestimenta o de manera Ego-Centric”.

Construir un ciclo de datos basado en el cierre del bucle es otra cuestión clave para Variable. Wang Hao dijo: “Hacer, cuanto antes, que funcione el ciclo de bucle con un enfoque de colaboración hombre-máquina. Primero, usa datos de alta calidad y entrenamiento a gran escala para construir un modelo base. Aunque no resuelva todas las tareas, debería colocarse en el entorno real para comenzar. Si hay cosas que no se hacen bien, la persona lo toma y lo ayuda a recuperarse de los errores. Ese tipo de datos también será una fuente extremadamente valiosa”. Lo que describe es un sistema en el que la evaluación, el entrenamiento y la adquisición de datos se completan en el mismo proceso.

03 ¿Por qué es el hogar?

De hecho, en la industria se juzga de manera general que la implementación de aplicaciones maduras en entornos domésticos necesita esperar entre 5 y 10 años; la mayoría de las empresas, en la comercialización, se inclinan más por los escenarios industriales: entorno controlable, tareas más únicas y un ROI que se puede calcular. A principios de 2026 surgió una serie de empresas de robótica con valoraciones de cien mil millones; pero, en la dirección de los servicios domésticos, todavía no existe un jugador verdaderamente maduro con sentido real.

Wang Hao planteó una forma distinta de resolver el problema: “El hogar representa el entorno más abierto y las tareas más amplias. Si resuelves las tareas del hogar, significa que el modelo puede lograr una generalización completa. Solo enfrentando desde el principio el escenario más complejo podrás mejorar el nivel de inteligencia del modelo. No importa desde cuándo empieces, cuanto antes, mejor; eso es lo más importante”.

Sin embargo, entrar en los hogares tiene varios retos clave. Primero está la capacidad de generalización de zero-shot: el modelo debe explorar rutas de éxito mediante razonamiento, en lugar de depender de un entrenamiento previo. “Al entrar al hogar al principio no hay muchas oportunidades para entrenar el modelo; aquí necesitas estimular la capacidad de razonamiento del modelo para que, a través de ese razonamiento, en el escenario doméstico explore ejemplos exitosos”. En segundo lugar está la precisión en operaciones de largo alcance. “Ahora que los modelos base entran en el hogar, en muchas tareas hay tendencias o intenciones de acción, por ejemplo, pueden tender a estirarse y agarrar cualquier objeto, pero la precisión no es suficiente. Eso provoca que, al fallar por acumulación de errores en tareas complejas de largo alcance, al final fracase”.

Wang Hao explicó que hay dos claves para resolver el problema de la precisión en el largo recorrido. La primera es estimular la capacidad de razonamiento del modelo: “Hacer que el lenguaje combine la visión para razonar; el lenguaje, la visión y la acción forman una cadena de pensamiento al mismo nivel, para que el robot planifique y reflexione por sí mismo”. La segunda es hacer aprendizaje por refuerzo con robots reales a gran escala: “Mantener, bajo el estándar del modelo base, llegar a un nivel más alto de precisión espacial”.

Wang Hao estima que “tareas como limpieza y ordenamiento normales se pueden lograr con autonomía completa en 1 a 2 años. Pero para cerrar el ciclo en todas las tareas del hogar, el tiempo podría ser un poco más largo”.

Esto se hace eco de lo que dijo el CEO de Variable, Wang Qian. Wang Qian mencionó en una entrevista que, dentro de este año, se podría ver que los robots logran comercialización mediante implementaciones con ROI positivo. El avance en el escenario doméstico, sin embargo, es evidentemente más lento, pero también más a largo plazo.

Volviendo al tema controvertido que más preocupa hoy a la industria de inteligencia encarnada, ¿qué pesa más: la elección de la ruta tecnológica o la comercialización?

“En el tema de la inteligencia encarnada, el techo de rendimiento de los logros obtenidos sacrificando tecnología para lograr comercio no será alto. El verdadero techo alto es la coordinación entre comercio y tecnología: el comercio se impulsa paso a paso con la tecnología”. Wang Hao cree que la línea principal de Variable es hacer que el modelo base siga iterando hacia adelante. “Pero una cosa: no construir demasiados sistemas de modelos en escenarios verticales, y no hacer muchas compensaciones de ingeniería solo para aterrizar. Por ejemplo, si descubres que el robot tiene puntos ciegos en la visión, entonces haces un modelo pequeño para detectarlos. A corto plazo, puede ayudar a acelerar la implementación, pero a largo plazo es perjudicial para la mejora del modelo base”.

Esta insistencia corresponde a la lógica de la selección de escenarios de Variable: la primera base para elegir un escenario es ver si puede retribuir la capacidad del modelo base. “No es que primero digas que la tecnología se hace completamente generalizada y luego pienses en el escenario. Al contrario: el escenario te hace iterar. La iteración hace que el modelo base sea más fuerte. Un modelo base más fuerte retribuye a la comercialización, y solo así se puede formar un ciclo completo de principio a fin”.

También reveló que la inversión para construir modelos base ha sido siempre alta. Desde el primer día de existencia de la empresa, se ha invertido a gran escala en datos, potencia de cómputo e infraestructura. “Una vez que se establecen efectos de escala, cuando inviertes 10 veces más recursos y obtienes el liderazgo, el efecto de concentración de recursos será cada vez más evidente. Con una ventaja de órdenes de magnitud, podrás superar a otros en velocidad. Cuanto antes empieces, más ventaja tendrás; cuanto más tarde, más difícil será que se haga realidad”.

(Edición: Liu Jing HZ010)

     【Aviso legal】Este artículo solo representa las opiniones personales del autor y no está relacionado con Hexun. El sitio de Hexun mantiene una postura neutral sobre las afirmaciones y juicios expresados en el texto, y no ofrece ninguna garantía explícita o implícita sobre la exactitud, fiabilidad o integridad de los contenidos incluidos. Se ruega a los lectores que tomen el contenido solo como referencia y asuman toda la responsabilidad por sí mismos. news_center@staff.hexun.com

Reportar

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado