a16z artículo extenso: La próxima frontera de la IA no está en el lenguaje, sino en el mundo físico — el triple ciclo de impulso de robots, ciencia autónoma e interfaces cerebro-máquina

Autor: Oliver Hsu (a16z)

Traducido por: DeepWave TechFlow

Resumen de DeepWave: Este artículo proviene del investigador de a16z Oliver Hsu y es el mapa de inversión en «IA física» más sistemático desde 2026. Su juicio es: la línea principal de lenguaje/código sigue escalando, pero las capacidades disruptivas de próxima generación que realmente emergerán están en tres áreas cercanas a esa línea: robots generales, ciencia autónoma (científicos de IA), interfaces cerebro-máquina y otros nuevos interfaces humano-máquina. El autor desglosa cinco capacidades fundamentales que las sustentan y argumenta que estas tres líneas formarán un ciclo de retroalimentación estructural que alimenta y refuerza mutuamente. Para quienes quieren entender la lógica de inversión en IA física, este es actualmente el marco más completo.

El paradigma dominante en IA hoy en día gira en torno al lenguaje y el código. La ley de escalado de los grandes modelos de lenguaje ya está bien definida, y el ciclo comercial de datos, potencia computacional y mejoras en algoritmos está en marcha, con retornos significativos en cada avance, en su mayoría visibles. Este paradigma justifica la atención y el capital que atrae.

Pero otros campos adyacentes ya muestran avances sustantivos en su fase de incubación. Incluyen rutas como VLA (modelo visión-lenguaje-acción), WAM (modelo de acción del mundo), la ciencia física y la inferencia científica centrada en «científicos de IA», y nuevas interfaces que transforman la interacción humano-máquina mediante avances en IA (incluyendo interfaces cerebro-máquina y neurotecnología). Además de la tecnología en sí, estos campos están empezando a atraer talento, capital y fundadores. Las tecnologías que extienden la IA de frontera al mundo físico están madurando simultáneamente, y los avances en los últimos 18 meses indican que pronto entrarán en fases de escalado propias.

En cualquier paradigma tecnológico, el delta más grande entre capacidades actuales y potenciales a medio plazo suele tener dos características: primero, puede aprovechar los mismos beneficios de escalado que impulsan la frontera actual; segundo, está a un paso de la corriente principal — lo suficientemente cerca como para heredar infraestructura y dinámica de investigación existentes, pero lo suficientemente lejos como para requerir trabajo adicional sustancial. Esa distancia actúa como una doble función: crea una barrera de entrada para los que siguen rápidamente, y también define un espacio de problemas más escaso y menos saturado, donde es más probable que surjan nuevas capacidades — precisamente porque aún no se han recorrido todos los atajos.

Figura: Relación entre el paradigma actual de IA (lenguaje/código) y los sistemas fronterizos adyacentes

Hoy en día, hay tres áreas que cumplen con esta descripción: aprendizaje de robots, ciencia autónoma (especialmente en materiales y ciencias de la vida), y nuevos interfaces humano-máquina (incluyendo interfaces cerebro-máquina, habla silenciosa, wearables neuronales y nuevos canales sensoriales como el olfato digital). No son trabajos completamente independientes, sino que comparten un conjunto de «systemas frontera en el mundo físico». Comparten un conjunto de primitivas fundamentales: representación del comportamiento físico mediante aprendizaje de dinámica, arquitecturas para acciones corporales, infraestructura para simulación y datos sintéticos, canales sensoriales en expansión, y sistemas de control en ciclo cerrado. En la interacción entre estos campos, se refuerzan mutuamente. Además, son los lugares donde es más probable que emerjan capacidades de cambio cualitativo — resultado de la interacción entre escala de modelos, implementación física y nuevos tipos de datos, en un ciclo de retroalimentación.

Este artículo desglosará las primitivas tecnológicas que sustentan estos sistemas, explicará por qué estas tres áreas representan oportunidades de frontera, y propondrá que su interacción reforzada forma un ciclo de retroalimentación estructural que impulsa la IA hacia el mundo físico.

Cinco primitivas fundamentales

Antes de entrar en aplicaciones específicas, primero hay que entender las bases tecnológicas compartidas por estos sistemas frontera. La clave para llevar la IA de frontera al mundo físico son cinco primitivas principales. Estas tecnologías no son exclusivas de ningún campo de aplicación, sino que son componentes — que permiten construir sistemas que extienden la IA al mundo físico. Su maduración sincronizada es la razón por la que este momento es especialmente relevante.

Figura: Las cinco primitivas fundamentales que sustentan la IA física

Primativa 1: Representación del comportamiento físico mediante aprendizaje de dinámica

La primitiva más básica es aprender una representación comprimida y general del comportamiento del mundo físico — cómo se mueven, deforman, colisionan los objetos, y cómo reaccionan ante fuerzas. Sin esta capa, cada sistema de IA física tendría que aprender desde cero las leyes físicas de su dominio, lo cual sería demasiado costoso.

Varias corrientes arquitectónicas se acercan a este objetivo desde diferentes ángulos. Los modelos VLA (visión-lenguaje-acción) parten desde arriba: usan modelos preentrenados de visión y lenguaje — que ya comprenden semánticamente objetos, relaciones espaciales y lenguaje — y añaden un decodificador de acciones que produce instrucciones de control de movimiento. La clave es que el enorme costo de aprender a «ver» y «entender el mundo» puede reducirse con preentrenamiento en internet a escala de imágenes y texto. Empresas como Physical Intelligence π₀, Google DeepMind con Gemini Robotics, y NVIDIA con GR00T N1, están validando estas arquitecturas a escalas cada vez mayores.

Los modelos WAM (modelo de acción del mundo) parten desde abajo: usan transformadores de difusión de video preentrenados en videos a escala de internet, que conservan ricos conocimientos previos sobre dinámica física (cómo caen los objetos, cómo se ocultan, cómo interactúan bajo fuerzas), y los combinan con generación de acciones. NVIDIA DreamZero demuestra generalización zero-shot a nuevas tareas y entornos, con pocos datos de adaptación, logrando transferencias cross-ontology desde demostraciones humanas, con mejoras significativas en generalización al mundo real.

Una tercera ruta, quizás la más inspiradora para el futuro, salta toda la preentrenamiento VLM y WAM. GEN-1, un modelo de base con cuerpo nativo, entrenado desde cero con más de 500,000 horas de datos de interacción física real, recolectados principalmente con dispositivos portátiles económicos durante tareas cotidianas. No es un VLA estándar (sin un backbone visual-lenguaje en ajuste fino), ni WAM. Es un modelo fundamental diseñado específicamente para interacción física, que aprende no las estadísticas de imágenes, textos o videos de internet, sino las estadísticas de contacto humano con objetos.

Empresas como World Labs trabajan en inteligencia espacial, que complementa esta primitiva, ya que llena una brecha común a VLA, WAM y modelos nativos con cuerpo: ninguna de estas tiene modelado explícito de la estructura 3D del escenario. VLA hereda características visuales 2D preentrenadas en imágenes y texto; WAM aprende dinámica en videos, que son proyecciones 3D en 2D; modelos entrenados con sensores portátiles capturan fuerzas y cinemática, pero no la geometría del escenario. La inteligencia espacial ayuda a reconstruir y generar la estructura 3D completa del entorno físico, y a razonar sobre ella: geometría, iluminación, oclusión, relaciones entre objetos y distribución espacial.

La convergencia de estas rutas en una representación común — ya sea heredada de VLM, aprendida en colaboración con videos, o construida desde cero con datos de interacción física — es clave. La representación comprimida y transferible del comportamiento físico del mundo, que puede alimentarse con enormes volúmenes de datos (no solo videos y trayectorias robot, sino también la vasta experiencia corporal humana recolectada por dispositivos portátiles en escala). La misma representación puede servir a un robot que aprende a doblar toallas, a un laboratorio autónomo que predice reacciones, o a un decodificador neural que interpreta la intención de agarre en la corteza motora.

Primativa 2: Arquitectura para acciones corporales

Tener solo representación física no basta. Para traducir «comprensión» en acciones físicas confiables, se requiere una arquitectura que resuelva varias cuestiones interrelacionadas: mapear altas intenciones a instrucciones de movimiento continuas, mantener coherencia en secuencias largas, operar bajo latencias en tiempo real, y mejorar con la experiencia.

La arquitectura en capas con doble sistema se ha convertido en estándar para tareas corporales complejas: un modelo grande y lento de visión-lenguaje para entender escenas y razonar tareas (Sistema 2), junto con un sistema rápido y liviano de control visual-motor para control en tiempo real (Sistema 1). Empresas como GR00T N1, Gemini Robotics y Helix de Figure adoptan variantes de esta estrategia, resolviendo la tensión entre el razonamiento profundo y el control de milisegundos. La aproximación de Generalist usa «razonamiento resonante» para que pensamiento y acción ocurran simultáneamente.

Los mecanismos de generación de acciones también evolucionan rápidamente. La cabeza de acción basada en emparejamiento de flujo y difusión, iniciada por π₀, ya es la principal metodología para generar movimientos suaves y continuos de alta frecuencia, reemplazando la tokenización discreta heredada del modelado de lenguaje. Estos métodos tratan la generación de acciones como un proceso de eliminación de ruido similar a la síntesis de imágenes, produciendo trayectorias más suaves y robustas ante errores acumulados, superando a predicciones autoregresivas.

Pero el avance más importante en arquitectura puede ser la extensión del aprendizaje por refuerzo (RL) a modelos preentrenados de VLA — un modelo base entrenado en datos de demostración, que puede seguir mejorando mediante práctica autónoma, como los humanos perfeccionan habilidades con repetición y auto-corrección. El trabajo de π*₀.₆ en Physical Intelligence es la demostración a escala más clara de este principio. Su método, RECAP (Experiencia y Corrección en RL basada en ventajas condicionales), resuelve el problema de asignación de crédito en secuencias largas que el simple imitar no puede. Por ejemplo, si un robot levanta la manija de una máquina de espresso con un ángulo ligeramente incorrecto, la falla no será inmediata, sino que puede manifestarse varias acciones después. La imitación no tiene mecanismo para atribuir esa falla a la acción inicial, pero RL sí. RECAP entrena una función de valor que estima la probabilidad de éxito desde cualquier estado intermedio, y permite que VLA elija acciones con alta ventaja. La clave es que integra diversos datos heterogéneos — demostraciones, experiencia autónoma, correcciones remotas de expertos — en un mismo pipeline de entrenamiento.

Este método es una buena noticia para el futuro del RL en acciones físicas. π*₀.₆ puede apilar 50 tipos de ropa nunca vistas en entornos domésticos, montar cajas de manera confiable, preparar espresso en máquinas profesionales, todo sin intervención humana durante horas. En tareas difíciles, RECAP duplica la tasa de éxito respecto a baselines de imitación pura, y reduce a la mitad la tasa de fallos. Además, demuestra que el entrenamiento posterior con RL puede generar comportamientos cualitativamente diferentes a los de imitación: movimientos de recuperación más suaves, estrategias de agarre más eficientes, correcciones adaptativas no presentes en los datos de demostración.

Estos beneficios indican que la escalabilidad computacional que llevó a los grandes modelos de GPT-2 a GPT-4 ya está operando en el campo de la acción — solo que en una curva más temprana, con espacios de acción continuos y de alta dimensión, enfrentando las duras restricciones del mundo físico.

Primativa 3: Infraestructura de simulación y datos sintéticos para escalado

En lenguaje, el problema de datos se resolvió con internet: billones de tokens de texto generados naturalmente y disponibles gratuitamente. En el mundo físico, el problema es varias órdenes de magnitud mayor — y ahora hay consenso en ello. La señal más clara es el rápido aumento de startups proveedoras de datos físicos. La recolección de trayectorias reales de robots es costosa, de escala limitada y con poca diversidad. Un modelo de lenguaje puede aprender de mil millones de diálogos, pero un robot (por ahora) no puede tener mil millones de interacciones físicas.

La generación de datos sintéticos y simulados es la infraestructura clave para superar esta limitación. Su madurez ha sido una de las razones principales por las que la IA física ha acelerado en la actualidad en lugar de hace cinco años.

La pila moderna de simulación combina motores físicos, renderizado foto-realista con trazado de rayos, generación procedural de entornos, y modelos de mundo que producen videos sintéticos a partir de entradas simuladas — ayudando a cerrar la brecha sim-to-real. Desde reconstrucción neural del entorno real (que puede hacerse con un solo teléfono), hasta la creación de activos 3D precisos, y generación de grandes volúmenes de datos sintéticos con anotaciones automáticas.

La mejora en esta pila cambia las bases económicas del IA física. Si el cuello de botella pasa de «recolectar datos reales» a «diseñar entornos virtuales diversos», los costos caen drásticamente. La simulación escala con potencia computacional, sin depender de mano de obra o hardware físico. Esto transforma la estructura económica del entrenamiento de sistemas físicos, de modo similar a cómo la disponibilidad de datos textuales en internet transformó el entrenamiento de modelos de lenguaje — invirtiendo en infraestructura de simulación genera un efecto de palanca en todo el ecosistema.

Pero la simulación no solo es primitiva para robots. La misma infraestructura soporta ciencia autónoma (digital twins de laboratorios, simulaciones para preselección de hipótesis), nuevas interfaces (entornos neuronales simulados para entrenar decodificadores BCI, datos sintéticos para calibrar sensores), y otros ámbitos de interacción IA-mundo físico. La simulación es la fuente de datos universal para IA física.

Primativa 4: Expansión de canales sensoriales

La información del mundo físico se transmite en muchas modalidades más allá de la visión y el lenguaje. La tactilidad transmite propiedades de materiales, estabilidad de agarre, geometría de contacto — información que la cámara no puede captar. Las señales neuronales codifican intenciones de movimiento, estados cognitivos y experiencias sensoriales con un ancho de banda mucho mayor que cualquier interfaz humano-máquina existente. La actividad muscular subglótica codifica intenciones de habla antes de que se produzca sonido. La cuarta primitiva es la expansión rápida de estos canales sensoriales que antes eran inaccesibles para la IA — impulsada tanto por investigación como por la creación de dispositivos, software e infraestructura para consumo masivo.

Figura: Canales sensoriales en expansión en IA, desde AR y EMG hasta interfaces cerebro-máquina

El indicador más directo es la aparición de nuevos dispositivos. Los dispositivos AR han mejorado mucho en experiencia y forma en los últimos años (ya hay empresas aplicándolos en consumo e industrial). Los wearables centrados en voz permiten que la IA basada en lenguaje tenga un contexto físico más completo — realmente acompañan al usuario en su entorno. A largo plazo, las interfaces neuronales podrían abrir canales de interacción más completos. La transformación en la computación que trae la IA crea una oportunidad para mejorar radicalmente la interacción humano-máquina, y empresas como Sesame están desarrollando nuevos canales y dispositivos para ello.

El modo de interacción basado en voz, más maduro, también impulsa nuevas formas de interacción. Productos como Wispr Flow priorizan la voz como entrada principal (por su alta densidad de información y ventajas naturales), y el mercado de interfaces silenciosas de voz también mejora. Estos dispositivos capturan movimientos de lengua y cuerdas vocales sin producir sonido, permitiendo reconocimiento silencioso del lenguaje — una modalidad de interacción humano-máquina con mayor densidad de información.

Las interfaces cerebro-máquina (tanto invasivas como no invasivas) representan un avance más profundo, con un ecosistema comercial en crecimiento. Las señales se validan clínicamente, se aprueban regulaciones, se integran en plataformas, y se atraen capitales — un proceso que hace unos años era solo académico.

La percepción táctil empieza a integrarse en arquitecturas de IA con cuerpo, y algunos modelos en robótica ya consideran la tactilidad como una capacidad fundamental. La interfaz olfativa se está convirtiendo en un producto real: dispositivos portátiles con generadores de olores miniaturizados y respuesta en milisegundos, ya demostrados en aplicaciones de realidad mixta; modelos olfativos que se combinan con sistemas visuales para monitoreo químico.

El patrón común en estos desarrollos es que convergen en sus límites: gafas AR generan datos visuales y espaciales de interacción usuario-entorno; pulseras EMG capturan patrones de intención motora; interfaces silenciosas de voz mapean la actividad subglótica a lenguaje; BCI capturan actividad neuronal con alta resolución; sensores táctiles registran dinámica de contacto. Cada nuevo dispositivo también es una plataforma de generación de datos, alimentando modelos en múltiples aplicaciones. Un robot que infiere intención motora a partir de EMG y se entrena con datos remotos, aprende estrategias diferentes a uno que solo recibe comandos remotos; un sistema que responde a instrucciones subglóticas y otro controlado por teclado, ofrecen formas de interacción distintas; un decodificador neural entrenado con datos de alta densidad produce representaciones de movimiento que ningún otro canal puede ofrecer.

La difusión de estos dispositivos amplía la dimensión efectiva del espacio de datos para entrenar sistemas de IA física en el mundo real — impulsada en gran medida por empresas de consumo con recursos, no solo por laboratorios académicos, acelerando así el ciclo de datos y adopción.

Primativa 5: Sistemas de agentes en ciclo cerrado

Finalmente, la última primitiva es más de nivel arquitectónico: sistemas que integran percepción, razonamiento y control en un ciclo continuo, autónomo, en tiempo real, sin intervención humana, operando en el largo plazo.

En modelos de lenguaje, esto se refleja en la emergencia de agentes inteligentes — cadenas de razonamiento, uso de herramientas, autorregulación — que llevan a los modelos de respuestas de una sola ronda a resolver problemas de forma autónoma. En el mundo físico, un cambio similar está ocurriendo, pero con requisitos mucho más estrictos. Un agente de lenguaje puede cometer errores y retroceder sin costo; uno físico, si vuelca un reactivo, no puede volver atrás.

Los sistemas de agentes físicos tienen tres características que los diferencian de los digitales: primero, necesitan integrarse en experimentos o ciclos de operación cerrados — conectarse directamente a datos de instrumentos, sensores físicos y primitivas de acción, para que el razonamiento se aplique a la realidad física, no solo a su descripción textual; segundo, requieren persistencia en secuencias largas — memoria, trazabilidad, monitoreo de seguridad, recuperación — enlazando múltiples ciclos de operación; tercero, deben adaptarse en ciclo cerrado — ajustar estrategias en función de resultados físicos, no solo de retroalimentación textual.

Esta primitiva fusiona capacidades independientes (buenos modelos del mundo, arquitecturas confiables de acción, sensores diversos) en sistemas completos que operan de forma autónoma en el mundo físico. Es la capa de integración, cuya madurez es la condición previa para que estos sistemas puedan desplegarse en el mundo real, no solo en experimentos aislados.

Tres áreas

Las primitivas anteriores son habilitantes universales, no específicas de aplicaciones. Muchas áreas involucran acción, medición o percepción física. La diferencia entre «sistemas frontera» y «mejoras en sistemas existentes» radica en cuánto se benefician de la escalabilidad y el efecto de acumulación en los modelos y la infraestructura — no solo en rendimiento, sino en la aparición de capacidades nuevas antes imposibles.

Robótica, ciencia impulsada por IA, y nuevas interfaces humano-máquina son los tres campos donde este efecto de acumulación es más fuerte. Cada uno combina estas primitivas de forma única, y cada uno está limitado por las restricciones que aún existen en esas primitivas, pero también genera en su proceso datos estructurados del mundo físico — que a su vez mejoran esas primitivas, creando un ciclo de retroalimentación que acelera todo el sistema. No son los únicos en IA física, pero sí los más densos en interacción con la realidad física, y los que ofrecen mayor espacio para la emergencia de nuevas capacidades — además de ser altamente complementarios y beneficiarse de los beneficios del paradigma de lenguaje y código.

Robótica

La robótica es la manifestación más literal de IA física: un sistema que necesita percibir, razonar y actuar en el mundo material en tiempo real. También pone a prueba cada una de estas primitivas.

Imagina qué se necesita para que un robot general doble una toalla. Requiere una representación aprendida de cómo se comportan materiales deformables bajo fuerza — un conocimiento previo físico que no puede obtenerse solo con preentrenamiento en lenguaje. Necesita una arquitectura que traduzca instrucciones de alto nivel en secuencias de control continuas a más de 20Hz. Requiere datos de entrenamiento generados por simulación, porque no hay millones de demostraciones reales de doblar toallas. Necesita retroalimentación táctil para detectar deslizamientos y ajustar la fuerza de agarre, ya que la visión no puede distinguir entre un agarre estable y uno que está fallando. Además, requiere un controlador en ciclo cerrado que identifique errores y recupere, en lugar de seguir ciegamente una trayectoria memorizada.

Figura: La tarea de un robot requiere invocar simultáneamente las cinco primitivas fundamentales

Por eso, la robótica es un sistema frontera, no solo una disciplina de ingeniería madura. Estas primitivas no solo mejoran capacidades existentes, sino que desbloquean categorías de operación, movimiento e interacción que antes estaban fuera de alcance fuera de entornos industriales controlados.

Los avances en los últimos años han sido notables — ya lo hemos mencionado antes. La primera generación de modelos VLA demostró que modelos base pueden controlar robots para tareas variadas. Los avances en arquitectura han conectado la razonamiento de alto nivel con el control de bajo nivel. La inferencia en el extremo del robot se vuelve factible, y la transferencia entre diferentes plataformas significa que un modelo puede adaptarse con pocos datos a un robot completamente nuevo. El desafío principal sigue siendo la confiabilidad a escala, que aún limita el despliegue. Cada paso con éxito del 95% en tareas de 10 pasos solo alcanza un 60% en entornos reales, donde se requiere mucho más. El entrenamiento posterior con RL tiene un potencial enorme para superar estos límites y alcanzar la robustez necesaria para despliegues masivos.

Estos avances impactan en la estructura del mercado. Durante décadas, el valor de la robótica residió en los sistemas mecánicos en sí; la mecánica sigue siendo clave, pero a medida que las estrategias de aprendizaje se vuelven más estándar, el valor migra hacia modelos, infraestructura de entrenamiento y ciclos de datos. La robótica también retroalimenta estas primitivas: cada trayectoria real es un dato que mejora el modelo del mundo; cada fallo revela brechas en la simulación; cada nuevo robot probado amplía la diversidad de experiencia física para preentrenar. La robótica es tanto un consumidor exigente de estas primitivas como una fuente clave de retroalimentación para mejorarlas.

Ciencia autónoma

Si la robótica prueba las primitivas con «acciones físicas en tiempo real», la ciencia autónoma evalúa otra cosa: razonamiento persistente en sistemas físicos complejos, en escalas de horas o días, interpretando resultados, contextualizándolos y ajustando estrategias.

Figura: La integración de las cinco primitivas en ciencia autónoma (IA científico)

La ciencia impulsada por IA es el campo donde estas primitivas se combinan más profundamente. Un laboratorio autónomo (SDL) necesita aprender representaciones de dinámica física y química para predecir resultados experimentales; requiere acciones corporales para manipular líquidos, posicionar muestras y operar instrumentos; necesita simulación para preselección de experimentos y gestión eficiente del tiempo en instrumentos escasos; y requiere canales sensoriales extendidos — espectroscopía, cromatografía, espectrometría de masas y sensores químicos y biológicos cada vez más avanzados — para caracterizar resultados. La integración en un ciclo de «hipótesis, experimento, análisis, ajuste» sin intervención humana es esencial. No hay otro campo que invoque estas primitivas con tanta profundidad, por eso la ciencia autónoma es un sistema frontera, no solo automatización de laboratorio.

Su valor es intuitivo. La descubrimiento de nuevos materiales tradicionalmente tarda años; la IA puede acelerar ese proceso. La restricción clave pasa de generar hipótesis (que modelos base pueden ayudar) a fabricar y verificar en laboratorio (requiere instrumentos físicos, robots, ciclo cerrado). SDL apunta a ese cuello de botella.

Otra característica clave de la ciencia autónoma, que se aplica en todos los sistemas físicos, es su papel como motor de datos. Cada experimento produce no solo un resultado científico, sino una señal de entrenamiento validada y aterrizada. Una medición de cristalización de polímeros en condiciones específicas enriquece el modelo del mundo; una ruta sintética validada alimenta el razonamiento físico; un fallo caracterizado revela dónde falla la predicción. Los datos que produce un IA científico en experimentos reales son estructurados, causales y validados empíricamente — exactamente lo que los modelos de razonamiento físico necesitan y no pueden obtener de otra fuente. La ciencia autónoma convierte la realidad física en conocimiento estructurado, mejorando todo el ecosistema de IA física.

Nuevas interfaces

Mientras los robots extienden IA al movimiento físico, y la ciencia autónoma a la investigación, las nuevas interfaces conectan IA con la percepción, la experiencia sensorial y las señales corporales humanas — desde gafas AR, pulseras EMG, hasta interfaces cerebro-máquina implantables. La clave no es una sola tecnología, sino una función común: ampliar el ancho de banda y los modos de comunicación entre humanos e IA — generando datos de interacción humano-mundo que puedan usarse para construir IA física.

Figura: La genealogía de nuevas interfaces desde gafas AR hasta BCI

La distancia respecto a los paradigmas actuales es tanto un reto como una oportunidad. Los modelos de lenguaje entienden estos modos conceptualmente, pero no son nativos en los patrones de movimiento silencioso, en la geometría de receptores olfativos, o en la dinámica temporal de señales EMG. La decodificación requiere aprender desde los canales sensoriales en expansión. Muchos modos no tienen corpus preexistente a escala de internet; los datos solo pueden generarse desde los propios interfaces, lo que implica una coevolución entre sistema y datos — sin equivalente en IA de lenguaje.

El ejemplo más visible es la rápida adopción de dispositivos wearables para consumo. Gafas AR, dispositivos de reconocimiento de voz, interfaces silenciosas — todos están en auge. Estos dispositivos generan un flujo constante de datos sensoriales y biométricos, creando una red distribuida de captura de experiencia física humana en escala sin precedentes. La escala de estos dispositivos, comparable a la de los smartphones, abre un canal de datos que alimenta y acelera la construcción de IA física.

Las interfaces cerebro-máquina representan un avance aún más profundo. Neuralink ha implantado electrodos en varios pacientes, con robots quirúrgicos y decodificadores en iteración. Synchron ha desarrollado Stentrode, un dispositivo vascular para control de prótesis y entornos digitales en personas paralizadas. Echo Neurotechnologies trabaja en sistemas BCI para recuperación del lenguaje, basados en decodificación de alta resolución. Nuevas startups como Nudge reúnen talento y capital para plataformas neuronales. En investigación, hitos como el chip BISC con 65,536 electrodos inalámbricos, y el decodificador de lenguaje interno de BrainGate, muestran avances en decodificación cortical.

El hilo conductor en AR, wearables, habla silenciosa y BCI no es solo que son interfaces, sino que conforman un espectro de canales con ancho de banda creciente entre experiencia física y sistemas IA — cada punto en ese espectro sustenta el avance de las primitivas descritas. Un robot entrenado con millones de videos en primera persona de usuarios de gafas, aprende operativa y operativamente diferente a uno entrenado solo con datos remotos; un sistema que responde a instrucciones subglóticas y otro controlado por teclado ofrecen formas distintas de interacción; un decodificador neural entrenado con datos de alta densidad produce representaciones de movimiento que ningún otro canal puede ofrecer.

La expansión de estos canales sensoriales amplía la dimensión efectiva del espacio de datos para entrenar IA física en el mundo real — impulsada en gran medida por empresas de consumo con recursos, no solo por laboratorios académicos, acelerando así el ciclo de datos y adopción.

Primativa 5: Sistemas de agentes en ciclo cerrado

La última primitiva es más de nivel arquitectónico: sistemas que integran percepción, razonamiento y control en un ciclo continuo, autónomo, en tiempo real, sin intervención humana, operando en el largo plazo.

En modelos de lenguaje, esto se refleja en la emergencia de agentes inteligentes — cadenas de razonamiento, uso de herramientas, autorregulación — que llevan a los modelos de respuestas de una sola ronda a resolver problemas de forma autónoma. En el mundo físico, un cambio similar está en marcha, pero con requisitos mucho más estrictos. Un agente de lenguaje puede cometer errores y retroceder sin costo; uno físico, si vuelca un reactivo, no puede volver atrás.

Los sistemas de agentes físicos tienen tres características que los diferencian de los digitales: primero, necesitan integrarse en experimentos o ciclos de operación cerrados — conectarse directamente a datos de instrumentos, sensores físicos y primitivas de acción, para que el razonamiento se aplique a la realidad física, no solo a su descripción textual; segundo, requieren persistencia en secuencias largas — memoria, trazabilidad, monitoreo de seguridad, recuperación — enlazando múltiples ciclos de operación; tercero, deben adaptarse en ciclo cerrado — ajustar estrategias en función de resultados físicos, no solo de retroalimentación textual.

Esta primitiva fusiona capacidades independientes (buenos modelos del mundo, arquitecturas confiables de acción, sensores diversos) en sistemas completos que operan de forma autónoma en el mundo físico. Es la capa de integración, cuya madurez es la condición previa para que estos sistemas puedan desplegarse en el mundo real, no solo en experimentos aislados.

Tres áreas

Las primitivas anteriores son habilitantes universales, no específicas de aplicaciones. Muchas áreas involucran acción, medición o percepción física. La diferencia entre «sistemas frontera» y «mejoras en sistemas existentes» radica en cuánto se benefician de la escalabilidad y el efecto de acumulación en los modelos y la infraestructura — no solo en rendimiento, sino en la aparición de capacidades nuevas antes imposibles.

Robótica, ciencia impulsada por IA, y nuevas interfaces humano-máquina son los tres campos donde este efecto de acumulación es más fuerte. Cada uno combina estas primitivas de forma única, y cada uno está limitado por las restricciones que aún existen en esas primitivas, pero también genera en su proceso datos estructurados del mundo físico — que a su vez mejoran esas primitivas, creando un ciclo de retroalimentación que acelera todo el sistema. No son los únicos en IA física, pero sí los más densos en interacción con la realidad física, y los que ofrecen mayor espacio para la emergencia de nuevas capacidades — además de ser altamente complementarios y beneficiarse de los beneficios del paradigma de lenguaje y código.

Robótica

La robótica es la manifestación más literal de IA física: un sistema que necesita percibir, razonar y actuar en el mundo material en tiempo real. También pone a prueba cada una de estas primitivas.

Imagina qué se necesita para que un robot general doble una toalla. Requiere una representación aprendida de cómo se comportan materiales deformables bajo fuerza — un conocimiento previo físico que no puede obtenerse solo con preentrenamiento en lenguaje. Necesita una arquitectura que traduzca instrucciones de alto nivel en secuencias de control continuas a más de 20Hz. Requiere datos de entrenamiento generados por simulación, porque no hay millones de demostraciones reales de doblar toallas. Necesita retroalimentación táctil para detectar deslizamientos y ajustar la fuerza de agarre, ya que la visión no puede distinguir entre un agarre estable y uno que está fallando. Además, requiere un controlador en ciclo cerrado que identifique errores y recupere, en lugar de seguir ciegamente una trayectoria memorizada.

Figura: La tarea de un robot requiere invocar simultáneamente las cinco primitivas fundamentales

Por eso, la robótica es un sistema frontera, no solo una disciplina de ingeniería madura. Estas primitivas no solo mejoran capacidades existentes, sino que desbloquean categorías de operación, movimiento e interacción que antes estaban fuera de alcance fuera de entornos industriales controlados.

Los avances en los últimos años han sido notables — ya lo hemos mencionado antes. La primera generación de modelos VLA demostró que modelos base pueden controlar robots para tareas variadas. Los avances en arquitectura han conectado la razonamiento de alto nivel con el control de bajo nivel. La inferencia en el extremo del robot se vuelve factible, y la transferencia entre diferentes plataformas significa que un modelo puede adaptarse con pocos datos a un robot completamente nuevo. El desafío principal sigue siendo la confiabilidad a escala, que aún limita el despliegue. Cada paso con éxito del 95% en tareas de 10 pasos solo alcanza un 60% en entornos reales, donde se requiere mucho más. El entrenamiento posterior con RL tiene un potencial enorme para superar estos límites y alcanzar la robustez necesaria para despliegues masivos.

Estos avances impactan en la estructura del mercado. Durante décadas, el valor de la robótica residió en los sistemas mecánicos en sí; la mecánica sigue siendo clave, pero a medida que las estrategias de aprendizaje se vuelven más estándar, el valor migra hacia modelos, infraestructura de entrenamiento y ciclos de datos. La robótica también retroalimenta estas primitivas: cada trayectoria real es un dato que mejora el modelo del mundo; cada fallo revela brechas en la simulación; cada nuevo robot probado amplía la diversidad de experiencia física para preentrenar. La robótica es tanto un consumidor exigente de estas primitivas como una fuente clave de retroalimentación para mejorarlas.

Ciencia autónoma

Si la robótica prueba las primitivas con «acciones físicas en tiempo real», la ciencia autónoma evalúa otra cosa: razonamiento persistente en sistemas físicos complejos, en escalas de horas o días, interpretando resultados, contextualizándolos y ajustando estrategias.

Figura: La integración de las cinco primitivas en ciencia autónoma (IA científico)

La ciencia impulsada por IA es el campo donde estas primitivas se combinan más profundamente. Un laboratorio autónomo (SDL) necesita aprender representaciones de dinámica física y química para predecir resultados experimentales; requiere acciones corporales para manipular líquidos, posicionar muestras y operar instrumentos; necesita simulación para preselección de experimentos y gestión eficiente del tiempo en instrumentos escasos; y requiere canales sensoriales extendidos — espectroscopía, cromatografía, espectrometría de masas y sensores químicos y biológicos cada vez más avanzados — para caracterizar resultados. La integración en un ciclo de «hipótesis, experimento, análisis, ajuste» sin intervención humana es esencial. No hay otro campo que invoque estas primitivas con tanta profundidad, por eso la ciencia autónoma es un sistema frontera, no solo automatización de laboratorio.

Su valor es intuitivo. La descubrimiento de nuevos materiales tradicionalmente tarda años; la IA puede acelerar ese proceso. La restricción clave pasa de generar hipótesis (que modelos base pueden ayudar) a fabricar y verificar en laboratorio (requiere instrumentos físicos, robots, ciclo cerrado). SDL apunta a ese cuello de botella.

Otra característica clave de la ciencia autónoma, que se aplica en todos los sistemas físicos, es su papel como motor de datos. Cada experimento produce no solo un resultado científico, sino una señal de entrenamiento validada y aterrizada. Una medición de cristalización de polímeros en condiciones específicas enriquece el modelo del mundo; una ruta sintética validada alimenta el razonamiento físico; un fallo caracterizado revela dónde falla la predicción. Los datos que produce un IA científico en experimentos reales son estructurados, causales y validados empíricamente — exactamente lo que los modelos de razonamiento físico necesitan y no pueden obtener de otra fuente. La ciencia autónoma convierte la realidad física en conocimiento estructurado, mejorando todo el ecosistema de IA física.

Nuevas interfaces

Mientras los robots extienden IA al movimiento físico, y la ciencia autónoma a la investigación, las nuevas interfaces conectan IA con la percepción, la experiencia sensorial y las señales corporales humanas — desde gafas AR, pulseras EMG, hasta interfaces cerebro-máquina implantables. La clave no es una sola tecnología, sino una función común: ampliar el ancho de banda y los modos de comunicación entre humanos e IA — generando datos de interacción humano-mundo que puedan usarse para construir IA física.

Figura: La genealogía de nuevas interfaces desde gafas AR hasta BCI

La distancia respecto a los paradigmas actuales es tanto un reto como una oportunidad. Los modelos de lenguaje entienden estos modos conceptualmente, pero no son nativos en los patrones de movimiento silencioso, en la geometría de receptores olfativos, o en la dinámica temporal de señales EMG. La decodificación requiere aprender desde los canales sensoriales en expansión. Muchos modos no tienen corpus preexistente a escala de internet; los datos solo pueden generarse desde los propios interfaces, lo que implica una coevolución entre sistema y datos — sin equivalente en IA de lenguaje.

El ejemplo más visible es la rápida adopción de dispositivos wearables para consumo. Gafas AR, dispositivos de reconocimiento de voz, interfaces silenciosas — todos están en auge. Estos dispositivos generan un flujo constante de datos sensoriales y biométricos, creando una red distribuida de captura de experiencia física humana en escala sin precedentes. La escala de estos dispositivos, comparable a la de los smartphones, abre un canal de datos que alimenta y acelera la construcción de IA física.

Las interfaces cerebro-máquina representan un avance aún más profundo. Neuralink ha implantado electrodos en varios pacientes, con robots quirúrgicos y decodificadores en iteración. Synchron ha desarrollado Stentrode,

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado