Al igual que GPT puede convertir tus prompts y registros de trabajo en habilidades reutilizables, ASPIRE también consolida los fracasos y reparaciones del robot en experiencias que pueden ser invocadas posteriormente.

La diferencia es que no revisa código, sino el proceso de operación del robot.

Cada vez que el robot ejecuta una tarea, ASPIRE registra procesos como percepción, navegación, agarre, colisión y planificación de movimiento.

El GPT/Claude que utiliza internamente actúa como un investigador, evaluando dónde falló la tarea e iterando el programa. Si la tarea se completa con éxito, la experiencia consolidada se escribe en una Skill.

De esta manera, el robot puede aprender continuamente escribiendo código, viendo trayectorias de ejecución, reparando programas y acumulando habilidades.

Y esto no se limita solo a refinar habilidades a partir de la experiencia del robot.

Jim Fan, director de robótica de NVIDIA, también señaló que ASPIRE representa un nuevo paradigma de aprendizaje continuo.

Entre ellos:

El entrenamiento pasa de descenso de gradiente a refinamiento continuo de habilidades (Skill Refinement).
El modelo entrenado ya no corresponde solo a un conjunto de pesos de punto flotante, sino a una biblioteca de habilidades robóticas en expansión (Sensorimotor Skills).
El entrenamiento distribuido se convierte en un grupo de Agentes que practican diferentes habilidades por separado y luego consolidan las experiencias en una misma biblioteca de habilidades.

Lo que se entrena no son necesariamente pesos

Aunque ya se ha introducido lo esencial, antes de explicar cómo revoluciona el paradigma de entrenamiento de robots, repasemos un poco de contexto.

El nombre completo de ASPIRE es Agentic Skill Programming through Iterative Robot Exploration.

Permite que los robots ejecuten tareas mediante código. Tras un fallo, el robot observa las trayectorias multimodales de ejecución, repara el programa y almacena la experiencia reparada en una biblioteca de habilidades (skills library) que se va enriqueciendo.

Aquí, una Skill, aunque en esencia sigue siendo un contexto alimentado a un modelo grande, contiene un patrón de reparación de código verificado (Code Repair Pattern), que indica al robot cómo modificar el programa de control cuando se enfrenta a cierto tipo de problemas.

Por ejemplo, cuando un robot intenta recoger una radio, ya ha identificado el objetivo pero no puede acercarse.

El Agente puede analizar que la causa no es un error de reconocimiento, sino que los puntos objetivo proporcionados por el planificador (Planner) caen dentro del búfer de colisión de obstáculos.

A partir de esta experiencia, ASPIRE sintetiza una nueva Skill:

Si se encuentra con este tipo de fallo de planificación, intente acercarse al objetivo desde diferentes ángulos, como 45°, 90°, 180°, hasta encontrar una trayectoria sin colisiones.

En el futuro, ante escenarios similares, ya sea la radio, un microondas u otros muebles, esta experiencia se puede reutilizar directamente sin necesidad de volver a probar y errar.

Al llegar a este punto, quizás te preguntes: ¿no debería el entrenamiento de robots implicar datos, descenso de gradiente, pesos de modelos, recolección en entornos reales y transferencia de simulación a realidad?

¿Por qué de repente se convierte en acumular habilidades?

Aquí hay que mencionar un paradigma reciente muy popular: Code as Policy.

A diferencia de los modelos de políticas extremo a extremo como VLA, Code as Policy no hace que el modelo genere directamente las acciones del robot, sino que permite que un modelo grande escriba un programa de control robótico ejecutable.

El programa puede invocar módulos de percepción, API de planificación y primitivas de control, como reconocer objetos, planificar trayectorias, mover un brazo robótico y ejecutar agarres.

De esta manera, el comportamiento del robot ya no está completamente oculto en los pesos de la red neuronal, sino que se convierte en código de operación ejecutable.

Una vez que hay código, puede ser revisado, modificado, depurado y optimizado por los poderosos modelos Agente actuales.

Pero en el pasado, Code as Policy tenía dos problemas.

Primero, cuando un robot fallaba, el sistema generalmente solo sabía que "la tarea no se completó", pero no si el error era de percepción, agarre inestable, colisión en la planificación de trayectoria o un problema en la acción de recuperación.

Segundo, y más crucial, no recordaba.

Después de completar una tarea, las soluciones de reparación, estrategias de recuperación y redacción de prompts descubiertas durante la depuración se descartaban. La próxima vez que se enfrentara a un problema similar, tenía que empezar desde cero.

Esta es la razón por la que Jim Fan dijo:

(Con ASPIRE) Cuando el robot complete la tarea número 100, ya no será tan ignorante como cuando completó la primera.

En resumen, todo este proceso es igual que el de un ingeniero humano en robótica:

Cuando un programa de robot falla, el ingeniero reproduce el proceso de ejecución, observa los resultados de percepción, analiza la trayectoria de movimiento y determina si el error fue de agarre, planificación o una acción de recuperación no conectada.

Después de repararlo, el ingeniero registra la experiencia. La próxima vez que se enfrente a objetos cercanos a una mesa, manijas de cajones o navegación en espacios estrechos, no empezará desde cero.

Lo que ASPIRE hace es delegar este mecanismo de acumulación de experiencia al agente. No solo permite que el modelo grande escriba código para robots, sino que también permite que el modelo grande pruebe, observe y repare repetidamente en el entorno de ejecución, y finalmente consolide las experiencias de reparación verificadas como Skills.

Por lo tanto, en ASPIRE, el entrenamiento ya no es solo descenso de gradiente.

El proceso de entrenamiento se convierte en Refinamiento de Habilidades (Skill Refinement); el producto del entrenamiento no es solo un peso de modelo, sino una Biblioteca de Habilidades (Skills Library) que el robot acumula y desarrolla continuamente.

Pipeline de tres etapas

En el artículo, esta idea se implementa como un pipeline de tres etapas.

Primero está el motor de ejecución del robot (robot execution engine).

Cuando un programa de robot tradicional falla, el sistema puede indicar solo que la tarea no se completó.

ASPIRE desglosa el fallo: cada percepción, planificación, agarre y llamada de control deja entradas, salidas, evidencia visual y registros de error.

Al igual que un ingeniero humano que al depurar un robot reproduce el video, observa la trayectoria y verifica si el error fue de percepción o de agarre, ASPIRE le asigna esta tarea al agente de codificación.

A continuación viene la biblioteca de habilidades (skill library). Una vez que el agente repara el programa, no descarta la experiencia, sino que la convierte en conocimiento reutilizable.

En la biblioteca de habilidades del sitio web se pueden ver elementos muy específicos, como cómo redactar prompts de texto de SAM3, cómo acercarse a objetos en el borde de una mesa desde múltiples ángulos, cómo filtrar falsas detecciones en manijas de cajones, qué primitivas de movimiento usar al empujar objetos planos.

Estos no son como los pesos de modelos tradicionales; son más como las notas de errores de un programador de robots.

Finalmente está la búsqueda evolutiva (evolutionary search).

Un agente no solo prueba una única ruta de reparación, sino que el sistema genera múltiples programas de control candidatos, los ejecuta en el entorno, y luego itera basándose en los programas supervivientes y las trayectorias de fallo.

En ingeniería de software, los agentes de codificación ya están acostumbrados a escribir código, ejecutar pruebas, ver trazas y corregir errores. Lo que ASPIRE hace es trasladar este ciclo al mundo físico.

Verificación experimental

Para verificar este método, el artículo realizó pruebas en tres benchmarks robóticos clásicos: LIBERO-Pro, Robosuite y BEHAVIOR-1K, que cubren operaciones de generalización, operaciones intensivas en contacto y tareas domésticas de larga duración.

Los resultados globales fueron claramente mejores que los métodos anteriores de Code as Policy.

Por ejemplo, en la tarea de transferencia bimanual de objetos (Bimanual Handover) en Robosuite, ASPIRE aumentó la tasa de éxito del 20% al 92%.

En cuanto a la capacidad de generalización.

El estudio primero acumuló la Skill Library en LIBERO-90, y luego la transfirió directamente a la tarea larga LIBERO-Pro Long, que nunca había visto, sin entrenamiento adicional para la nueva tarea ni actualización de la biblioteca de habilidades.

Los resultados muestran que a medida que la biblioteca de habilidades se enriquece, la tasa de éxito del robot en nuevas tareas también aumenta, desde casi no poder hacer nada hasta alcanzar el 31%. En otras palabras, cuanto más gruesa es la Skill Library, menos parece el robot un novato.

Introducción a los autores

Al final del blog técnico, NVIDIA también publicó la lista completa de autores.

Siguen siendo caras conocidas del equipo GEAR: Jim Fan, Zhu Yuke, Guanzhi Wang, Shi Guangya, entre otros.

Los tres primeros autores tienen contribuciones conjuntas.

Entre ellos, Runyu Lu es actualmente estudiante de doctorado de segundo año en la Universidad de Michigan, realizando prácticas en GEAR; Yuubo Wu proviene de la Universidad de Illinois en Urbana-Champaign (UIUC); Ethan Kou proviene de la Universidad de California, Berkeley, y actualmente es estudiante de pregrado.

Vale la pena mencionar que, justo ayer, NVIDIA también anunció la expansión de la contratación de su equipo de robótica en China, abriendo múltiples puestos en Beijing, Shanghái y Shenzhen, cubriendo direcciones como cognición encarnada, simulación, despliegue de robots y arquitectura de soluciones.

Fuente del artículo: Quantum Bit

Advertencia de riesgos y exención de responsabilidad

El mercado tiene riesgos, invierta con precaución. Este artículo no constituye un consejo de inversión personal, ni considera los objetivos de inversión, situación financiera o necesidades específicas de usuarios individuales. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones presentados en este artículo se ajustan a sus circunstancias particulares. Cualquier inversión basada en esto es responsabilidad del propio inversor.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateCompletesDividendDistribution
132,91K Popularidad
#
StrategyBuybackSurges12%
1,11M Popularidad
#
IsraelStrikesIranBTCPlunges
67,27K Popularidad
#
PredictWorldCupShare20000U
542,75K Popularidad
#
TrumpDisclosesOver100MBTCETH
3,83M Popularidad

Fijado

¡El momento Skill de la inteligencia incorporada! NVIDIA lanza código abierto de biblioteca de habilidades robóticas, Jim Fan: el paradigma ha cambiado.

Lo que se entrena no son necesariamente pesos

Pipeline de tres etapas

Verificación experimental

Introducción a los autores

Temas de actualidad

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Fijado