A16z: La próxima frontera de la IA, el triple impulso de robots, ciencia autónoma e interfaces cerebro-máquina

Título original: Sistemas Frontier para el Mundo Físico

Autor original: Oliver Hsu

Fuente original:

Reproducción: Mars Finance

Guía de Deep Tide: Este artículo proviene del investigador de a16z Oliver Hsu, y es el mapa de inversión en «IA física» más sistemático desde 2026. Su juicio es: la línea principal de escala en lenguaje/código sigue expandiéndose, pero las capacidades verdaderamente disruptivas de próxima generación están en tres áreas cercanas a esa línea — robots generales, ciencia autónoma (científicos de IA), interfaces cerebro-máquina y otros nuevos interfaces humano-máquina. El autor desglosa cinco capacidades fundamentales que las sustentan y argumenta que estas tres líneas formarán un ciclo de refuerzo estructural que se alimenta mutuamente. Para quienes quieren entender la lógica de inversión en IA física, este es actualmente el marco más completo.

El paradigma dominante en IA hoy en día gira en torno a lenguaje y código. La ley de escalado de los grandes modelos de lenguaje ya está claramente definida, y el ciclo comercial de datos, potencia computacional y mejoras en algoritmos está en marcha; cada avance en capacidad trae retornos significativos, en su mayoría visibles. Este paradigma justifica la atención y el capital que atrae.

Pero otro conjunto de áreas adyacentes ya muestra avances sustantivos en su fase de incubación. Incluyen rutas como VLA (modelo visual-lenguaje-acción), WAM (modelo de acción del mundo), la ciencia física y la inferencia científica centradas en «científicos de IA», y nuevas interfaces que transforman la interacción humano-máquina mediante IA (incluyendo interfaces cerebro-máquina y neurotecnología).

Además de la tecnología en sí, estas áreas están empezando a atraer talento, capital y fundadores. Las primitivas tecnológicas que extienden la IA de vanguardia al mundo físico están madurando simultáneamente, y los avances en los últimos 18 meses indican que estas áreas pronto entrarán en sus propias fases de escalado.

En cualquier paradigma tecnológico, los mayores delta entre capacidades actuales y potenciales a medio plazo suelen encontrarse en lugares que cumplen dos características: primero, pueden aprovechar los mismos beneficios de escalado que impulsan la frontera actual; segundo, están a un paso de la corriente principal — lo suficientemente cerca para heredar infraestructura e impulso de investigación, pero aún requieren trabajo adicional sustancial.

Esta distancia tiene un doble efecto: crea una barrera natural para los seguidores rápidos, y también define un espacio de problema más escaso y menos saturado en información, lo que aumenta la probabilidad de que surjan nuevas capacidades — precisamente porque aún no se han recorrido todos los atajos.

Hoy en día, tres áreas cumplen con esta descripción: aprendizaje de robots, ciencia autónoma (especialmente en materiales y ciencias de la vida), y nuevos interfaces humano-máquina (incluyendo interfaces cerebro-máquina, habla silenciosa, sensores neuronales portátiles y nuevos canales sensoriales como el olfato digital).

No trabajan de forma completamente independiente, sino que comparten un conjunto de primitivas fundamentales: representación del comportamiento físico mediante aprendizaje de dinámica, arquitecturas orientadas a acciones corporales, infraestructura para simulación y datos sintéticos, expansión continua de canales sensoriales, y sistemas de agentes en ciclo cerrado. Se refuerzan mutuamente en un ciclo de retroalimentación intersectorial. Además, son los lugares donde es más probable que surjan capacidades de cambio cualitativo — resultado de la interacción entre escala de modelos, implementación física y nuevos tipos de datos.

Este artículo desglosará las primitivas tecnológicas que sustentan estos sistemas, explicará por qué estas tres áreas representan oportunidades de frontera, y propondrá que su refuerzo mutuo forma un ciclo estructural que impulsa la IA hacia el mundo físico.

Cinco primitivas fundamentales

Antes de entrar en aplicaciones específicas, primero hay que entender las bases tecnológicas compartidas por estas áreas de frontera. Para llevar la IA de vanguardia al mundo físico, se apoyan en cinco primitivas principales. Estas tecnologías no son exclusivas de ningún campo de aplicación, sino componentes — que permiten construir sistemas que extienden la IA al mundo físico. Su maduración sincronizada es la razón por la que este momento es especialmente relevante.

Primitiva uno: Representación del comportamiento físico mediante aprendizaje de dinámica

La primitiva más fundamental es aprender una representación comprimida y general del comportamiento del mundo físico — cómo se mueven los objetos, cómo se deforman, colisionan y reaccionan a las fuerzas. Sin esta capa, cada sistema de IA física tendría que aprender desde cero las leyes físicas de su dominio, lo cual sería inviable.

Varias corrientes arquitectónicas se acercan a este objetivo desde diferentes ángulos. Los modelos VLA abordan desde arriba: toman modelos preentrenados de visión-lenguaje — que ya comprenden relaciones de objetos, espacio y semántica del lenguaje — y añaden un decodificador de acciones que genera instrucciones de control de movimiento.

El punto clave es que el costo de aprender a «ver» y «entender» el mundo puede reducirse significativamente mediante preentrenamiento a escala de internet en texto y visión. Modelos como π₀ de Physical Intelligence, Gemini Robotics de Google DeepMind, y GR00T N1 de Nvidia, están validando esta arquitectura en escalas cada vez mayores.

La segunda ruta, WAM, parte desde abajo: usa transformadores de difusión de video preentrenados en videos a escala de internet, que heredan ricos conocimientos previos sobre dinámica física (cómo caen los objetos, cómo se ocultan, cómo interactúan bajo fuerzas), y los combina con generación de acciones.

Nvidia DreamZero demuestra generalización zero-shot a nuevas tareas y entornos, con pocos datos de adaptación, logrando transferencias entre objetos en videos humanos y mejorando la generalización al mundo real.

Una tercera vía, quizás la más inspiradora para el futuro, salta toda la preentrenamiento VLM y WAM. GEN-1, un modelo de base con cuerpo, entrenado desde cero con más de 500,000 horas de datos de interacción física real, recolectados principalmente con dispositivos portátiles económicos durante tareas cotidianas.

No es un VLA estándar (sin un backbone visual-lenguaje ajustado), ni WAM. Es un modelo fundamental diseñado específicamente para interacción física, que aprende no las estadísticas de imágenes, textos o videos de internet, sino las leyes estadísticas del contacto humano con objetos.

Empresas como World Labs trabajan en inteligencia espacial, que aporta valor a esta primitiva, ya que complementa las deficiencias de VLA, WAM y modelos nativos de cuerpo: todos carecen de modelado explícito de la estructura tridimensional del escenario.

VLA hereda características visuales 2D preentrenadas en texto y visión; WAM aprende dinámica a partir de videos, que son proyecciones 3D en 2D; los modelos basados en sensores portátiles capturan fuerzas y cinemática, pero no la geometría del escenario. La inteligencia espacial ayuda a reconstruir y generar la estructura 3D completa del entorno físico, y a razonar sobre ella: geometría, iluminación, oclusiones, relaciones entre objetos y distribución espacial.

La convergencia de estas rutas es en sí misma un foco clave. Independientemente de si la representación proviene de VLM, del entrenamiento conjunto en videos, o de datos de interacción física nativos, la primitiva subyacente es la misma: un modelo comprimido y transferible del comportamiento físico del mundo.

Estas representaciones, alimentadas por un ciclo de datos muy grande — aún en desarrollo — incluyen no solo videos de internet y trayectorias robotizadas, sino también vastos corpus de experiencia humana recopilados con dispositivos portátiles. La misma representación puede servir a un robot que aprende a doblar toallas, a un laboratorio autónomo que predice reacciones, o a un decodificador neural que interpreta intenciones de agarre en la corteza motora.

Primitiva dos: Arquitectura orientada a acciones corporales

Tener solo representación física no basta. Para traducir «comprensión» en acciones físicas confiables, se requiere una arquitectura que resuelva varias cuestiones interrelacionadas: mapear intenciones altas a instrucciones de movimiento continuas, mantener coherencia en secuencias largas, operar con latencias en tiempo real, y mejorar con experiencia.

La arquitectura de doble sistema en capas ya es estándar para tareas corporales complejas: un modelo visual-lenguaje lento pero potente para comprensión de escenas y razonamiento de tareas (Sistema 2), junto con una estrategia de control visual-motriz rápida y ligera (Sistema 1). Modelos como GR00T N1, Gemini Robotics y Helix de Figure adoptan variantes de esta ruta, resolviendo la tensión entre el razonamiento profundo y el control en milisegundos. Generalist, en cambio, usa «razonamiento resonante» para que pensamiento y acción ocurran simultáneamente.

Los mecanismos de generación de acciones también evolucionan rápidamente. π₀, basado en coincidencia de flujo y difusión, se ha convertido en el método principal para generar movimientos suaves y continuos, reemplazando la tokenización discreta inspirada en modelos de lenguaje. Estos métodos tratan la generación de acciones como un proceso de eliminación de ruido similar a la síntesis de imágenes, produciendo trayectorias más suaves y robustas ante errores acumulados, superando a predicciones autoregresivas.

Pero el avance más importante en arquitectura puede ser la extensión del aprendizaje por refuerzo (RL) a modelos preentrenados de VLA: un modelo base entrenado en datos de demostración, que puede seguir mejorando mediante práctica autónoma, como los humanos perfeccionan habilidades con repetición y auto-corrección. π*₀.₆ de Physical Intelligence demuestra claramente esta escala. Su método, RECAP (aprendizaje por refuerzo con experiencia y corrección basada en ventajas), resuelve el problema de asignación de crédito en secuencias largas que el imitación pura no puede manejar.

Por ejemplo, si un robot levanta con un ángulo ligeramente incorrecto la manija de una máquina de espresso, la falla no será inmediata, sino que se manifestará en pasos posteriores. La imitación no tiene mecanismos para atribuir esa falla a la acción inicial, pero RL sí. RECAP entrena una función de valor que estima la probabilidad de éxito desde cualquier estado intermedio, y permite que VLA elija acciones con alta ventaja. Lo clave es que integra datos heterogéneos — demostraciones, experiencia autónoma, correcciones remotas de expertos — en un mismo pipeline de entrenamiento.

Este método es una buena noticia para el futuro del RL en acciones físicas. π*₀.₆ puede apilar 50 tipos de ropa nunca antes vistas en entornos domésticos, montar cajas de cartón de forma confiable, preparar espresso en máquinas profesionales, todo sin intervención humana durante horas. En tareas difíciles, RECAP duplica el rendimiento de la imitación pura, y reduce a la mitad la tasa de fallos. Además, demuestra que el entrenamiento posterior con RL puede generar comportamientos cualitativamente diferentes a la imitación: movimientos de recuperación más suaves, estrategias de agarre más eficientes, correcciones adaptativas no presentes en los datos de demostración.

Estos beneficios indican que la escalada computacional de modelos grandes — de GPT-2 a GPT-4 — ya empieza a operar en el campo de lo corporativo y físico, aunque aún en etapas tempranas, enfrentando espacios de acción continuos, de alta dimensión y con restricciones físicas implacables.

Primitiva tres: Infraestructura de simulación y datos sintéticos para escalado

En lenguaje, el problema de datos se resolvió con internet: billones de tokens de texto generados naturalmente y disponibles gratuitamente. En el mundo físico, el problema es varias órdenes de magnitud mayor — y ahora hay consenso en ello. La señal más clara es el rápido aumento de startups proveedoras de datos físicos.

La recolección de trayectorias reales de robots es costosa, de escala limitada y con riesgos. Un modelo de lenguaje puede aprender de mil millones de diálogos, pero un robot (por ahora) no puede tener mil millones de interacciones físicas.

La generación de datos sintéticos y simulados es la infraestructura clave para superar esta limitación, y su madurez ha sido una de las razones principales por las que la IA física ha acelerado en los últimos años en lugar de hace cinco.

El stack moderno combina motores de simulación física, renderizado foto-realista basado en trazado de rayos, generación procedural de entornos, y modelos de mundo que producen videos de nivel fotográfico a partir de entradas simuladas — estos últimos ayudan a cerrar la brecha sim-to-real. Todo empieza con reconstrucción neural del entorno real (que puede hacerse con un solo teléfono), seguido de la creación de activos 3D precisos, y la generación de grandes volúmenes de datos sintéticos con anotaciones automáticas.

La mejora en este stack significa que la economía del soporte para IA física cambiará: si el cuello de botella pasa de «recolectar datos reales» a «diseñar entornos virtuales diversos», los costos caerán drásticamente. La simulación escala con la potencia computacional, sin depender de mano de obra o hardware físico. Esto transforma la estructura económica del entrenamiento de IA física, de modo similar a cómo la infraestructura de datos en internet transformó el entrenamiento de modelos de lenguaje — invirtiendo en infraestructura de simulación puede tener un efecto de palanca enorme en todo el ecosistema.

Pero la simulación no solo es primitiva para robots. La misma infraestructura soporta ciencia autónoma (digital twin de laboratorios, simulaciones para preselección de hipótesis), nuevas interfaces (entornos neuronales simulados para entrenar decodificadores BCI, datos sintéticos para calibrar sensores), y otras áreas de interacción IA-mundo físico. La simulación es la fuente de datos universal para IA física.

Primitiva cuatro: Expansión de canales sensoriales

La información del mundo físico se transmite mediante señales mucho más ricas que solo visión y lenguaje. El tacto transmite propiedades de materiales, estabilidad de agarre, geometría de contacto — información que los cámaras no captan. Las señales neuronales codifican intenciones de movimiento, estados cognitivos y experiencias sensoriales con ancho de banda mucho mayor que cualquier interfaz humano existente. La actividad muscular subglótica codifica intenciones de habla antes de que se produzca sonido. La cuarta primitiva consiste en expandir rápidamente estos canales sensoriales anteriormente inaccesibles — no solo desde la investigación, sino desde toda una ecosistema de dispositivos, software e infraestructura de consumo.

El indicador más directo son los nuevos dispositivos de consumo. Los dispositivos AR han mejorado mucho en experiencia y forma en los últimos años (ya hay empresas aplicándolos en escenarios comerciales e industriales); los dispositivos de IA portátiles centrados en voz permiten a los modelos de lenguaje tener un contexto físico más completo — realmente acompañan al usuario en su entorno físico.

A largo plazo, las interfaces neuronales podrían abrir canales de interacción más completos. La transformación en la computación por IA crea una oportunidad para mejorar radicalmente la interacción humano-máquina, y empresas como Sesame están desarrollando nuevos canales y dispositivos para ello.

El modo más popular, la voz, también impulsa nuevas formas de interacción. Productos como Wispr Flow priorizan la voz como entrada principal (por su alta densidad de información y ventajas naturales), y el mercado de interfaces de voz silenciosa también mejora. Los dispositivos de voz silenciosa usan sensores para captar movimientos de lengua y cuerdas vocales, y reconocen el habla sin sonido — una modalidad de interacción humano-máquina con mayor densidad de información que la voz convencional.

Las interfaces cerebro-máquina (tanto invasivas como no invasivas) representan un avance más profundo, y su ecosistema comercial sigue creciendo. Las señales aparecen en validaciones clínicas, aprobaciones regulatorias, plataformas integradas y capital institucional — un campo que hace unos años era solo académico.

La percepción táctil también entra en la arquitectura de IA corporativa, y algunos modelos en aprendizaje robotizado empiezan a incluir explícitamente el tacto como una capacidad prioritaria. Los sensores de olfato se están convirtiendo en productos reales: dispositivos portátiles con generadores de olores miniaturizados y respuesta en milisegundos, ya demostrados en aplicaciones de realidad mixta; los modelos de olfato comienzan a emparejarse con sistemas visuales para monitoreo químico.

El patrón común en estos avances es que convergen en sus límites: gafas AR generan datos visuales y espaciales de interacción usuario-entorno; pulseras EMG capturan patrones de intención motriz; interfaces silenciosas detectan la relación entre actividad subglótica y habla; BCI con alta resolución captura actividad neuronal; sensores hápticos miden dinámica de contacto. Cada nuevo dispositivo también es una plataforma de generación de datos, alimentando modelos en múltiples áreas.

Un robot entrenado con datos de EMG para inferir intención motriz, y otro entrenado solo con datos de control remoto, aprenderán estrategias de agarre distintas; una interfaz de laboratorio que responde a comandos subglóticos y otra controlada por teclado ofrecen formas de interacción muy diferentes; un decodificador neural entrenado con datos de BCI de alta densidad produce representaciones de planificación motriz inaccesibles por otros canales.

La difusión de estos dispositivos amplía la dimensión efectiva del espacio de datos para entrenar sistemas de IA física en el mundo real — y en gran parte esto es impulsado por empresas de consumo con recursos, no solo por laboratorios académicos, lo que significa que el ciclo de datos puede expandirse junto con la adopción del mercado.

Primitiva cinco: Sistemas de agentes en ciclo cerrado

Finalmente, una primitiva más en el nivel de arquitectura: sistemas que integran percepción, razonamiento y acción en un ciclo continuo, autónomo y en tiempo real, operando sin intervención humana en períodos prolongados.

En modelos de lenguaje, esto se refleja en la emergencia de agentes inteligentes — cadenas de razonamiento, uso de herramientas, autorregulación — que llevan a los modelos de respuestas simples a resolver problemas de forma autónoma. En el mundo físico, un cambio similar está en marcha, pero con requisitos mucho más estrictos: un agente físico que comete errores no puede simplemente retroceder sin costo; si vuelca una botella de reactivo, no puede deshacerlo fácilmente.

Los sistemas de agentes físicos tienen tres características que los diferencian de los digitales:

Primero, necesitan integrarse en experimentos o ciclos de operación cerrados: conectarse directamente a datos instrumentales, sensores de estado físico y primitivas de ejecución, para que el razonamiento se base en la realidad física, no solo en descripciones textuales.

Segundo, requieren persistencia en secuencias largas: memoria, trazabilidad, monitoreo de seguridad y recuperación, enlazando múltiples ciclos de operación, no tratando cada tarea como un episodio independiente.

Tercero, deben adaptarse en ciclo cerrado: ajustar estrategias en función de resultados físicos, no solo en respuesta a retroalimentación textual.

Esta primitiva fusiona capacidades independientes — modelos de mundo precisos, arquitecturas de acción confiables, sensores diversos — en sistemas completos que operan autónomamente en el mundo físico. Es la capa de integración, cuya madurez es condición previa para que estos tres campos puedan desplegarse en entornos reales, no solo en demostraciones académicas.

Tres áreas

Las primitivas descritas son habilitadoras universales, no determinan en qué aplicaciones específicas se desplegarán principalmente. Muchas áreas involucran acción física, medición o percepción física. La diferencia entre «sistemas de frontera» y «mejoras de sistemas existentes» radica en cuánto se benefician de la escalabilidad y el aumento exponencial de capacidades — no solo en rendimiento, sino en la aparición de nuevas habilidades antes imposibles.

Robótica, ciencia impulsada por IA y nuevas interfaces humano-máquina son los tres campos donde este efecto de retroalimentación es más fuerte. Cada uno combina las primitivas de forma única, cada uno está limitado por las restricciones que las primitivas actuales están eliminando, y cada uno genera en su proceso datos estructurados del mundo físico — que a su vez mejoran las primitivas, creando un ciclo de retroalimentación que acelera todo el sistema. No son los únicos en IA física, pero sí los más densos en interacción con la realidad física, y también los que ofrecen mayor espacio para emergencias de nuevas capacidades — además de ser altamente complementarios a la corriente principal de lenguaje y código, beneficiándose de sus ventajas.

Robótica

La robótica es la manifestación más literal de IA física: un sistema que necesita percibir, razonar y ejercer acciones físicas en tiempo real. También pone a prueba cada una de las primitivas.

Imagina qué se requiere para que un robot general doble una toalla. Necesita una representación aprendida de cómo se comportan materiales deformables bajo fuerza — un conocimiento previo físico que la preentrenada en lenguaje no puede ofrecer. Requiere una arquitectura de control que traduzca instrucciones de alto nivel en secuencias continuas de movimiento a más de 20 Hz.

Necesita datos de entrenamiento generados por simulación, porque nadie ha recolectado millones de demostraciones reales de doblar toallas. Requiere retroalimentación háptica para detectar deslizamientos y ajustar la fuerza de agarre, ya que la visión no distingue entre un agarre estable y uno que está fallando. Además, necesita un controlador en ciclo cerrado que identifique errores en el doblado y recupere, en lugar de seguir ciegamente una trayectoria memorizada.

Por eso, la robótica es un sistema de frontera, no solo una disciplina de ingeniería madura. Las primitivas no solo mejoran capacidades existentes, sino que desbloquean categorías de operación, movimiento e interacción que antes estaban fuera de alcance fuera de entornos industriales controlados.

Los avances en los últimos años han sido notables — ya lo hemos mencionado antes. La primera generación de VLA demostró que modelos base pueden controlar robots para tareas variadas. Los avances en arquitectura han conectado la inferencia de alto nivel con el control de bajo nivel. La inferencia en el extremo es ahora factible, y la transferencia entre plataformas significa que un modelo puede adaptarse con pocos datos a un robot completamente nuevo. El desafío principal sigue siendo la fiabilidad a escala, que aún limita el despliegue. Cada paso con éxito del 95%, en una cadena de 10 pasos, solo alcanza un 60% de éxito, y los entornos productivos requieren mucho más. El aprendizaje por refuerzo posterior a entrenamiento tiene potencial para elevar estos límites, alcanzando capacidades y robustez necesarias para escalar.

Estos avances impactan en la estructura del mercado. Durante décadas, el valor de la industria robótica residía en los sistemas mecánicos. La mecánica sigue siendo clave, pero a medida que las estrategias de aprendizaje se vuelven más estándar, el valor se traslada a modelos, infraestructura de entrenamiento y ciclos de datos. La retroalimentación de datos reales también alimenta las primitivas: cada trayectoria real mejora los modelos, cada fallo revela brechas en la simulación, y cada prueba en un nuevo robot amplía la diversidad de experiencia física para preentrenar. La robótica es tanto un consumidor exigente de primitivas como una fuente clave de retroalimentación para su mejora.

Ciencia autónoma

Si la robótica prueba las primitivas mediante «acciones físicas en tiempo real», la ciencia autónoma evalúa la capacidad de realizar inferencias continuas en sistemas físicos complejos — en horas o días — interpretando resultados, contextualizándolos y ajustando estrategias.

La ciencia impulsada por IA es el campo donde la combinación de primitivas es más profunda. Un laboratorio autónomo (self-driving lab, SDL) necesita aprender representaciones físicas y químicas para predecir resultados experimentales; requiere acciones corporales para manipular líquidos, posicionar muestras y operar instrumentos; usa simulación para preselección de experimentos y asignación eficiente de recursos escasos; y necesita expandir sus canales sensoriales — espectroscopía, cromatografía, espectrometría de masas y sensores químicos y biológicos — para caracterizar resultados.

Es el campo que más requiere un ciclo de agentes inteligentes: mantener flujos de trabajo «hipótesis-experimento-análisis-ajuste» sin intervención, con trazabilidad, monitoreo de seguridad y ajuste de estrategias en cada ciclo.

Ningún otro campo invoca estas primitivas con tanta profundidad. Por eso, la ciencia autónoma es un sistema de frontera, no solo una automatización de laboratorio mejorada. Empresas como Periodic Labs y Medra combinan capacidades de razonamiento científico y validación física, logrando iteraciones científicas y generando datos de entrenamiento para experimentos.

El valor de estos sistemas es intuitivamente claro. La discovery de materiales tradicional lleva años, y la aceleración por IA podría reducirlo a meses o semanas. La restricción clave pasa de generación de hipótesis (que modelos básicos pueden apoyar) a fabricación y validación (que requieren instrumentos físicos, robots y ciclos cerrados). SDL apunta a este cuello de botella.

Otra característica fundamental de la ciencia autónoma, que se mantiene en todos los sistemas físicos, es su papel como motor de datos. Cada experimento en un SDL no solo produce un resultado científico, sino también una señal de entrenamiento validada físicamente.

Un ejemplo: medir cómo un polímero cristaliza bajo ciertas condiciones enriquece el modelo del comportamiento de materiales; una ruta sintética validada se convierte en dato para inferencia física; un fallo caracterizado revela dónde falla la predicción del sistema. Los datos de un científico IA en experimentos reales son estructurados, causales y validados empíricamente, a diferencia de los datos de texto o simulaciones. Son exactamente el tipo de datos que más necesita un modelo de inferencia física, y que no puede obtener de otra fuente. La ciencia autónoma transforma la realidad física en conocimiento estructurado, mejorando todo el ecosistema de IA física.

Nuevas interfaces

Mientras los robots extienden la IA a acciones físicas, y la ciencia autónoma a la investigación física, las nuevas interfaces conectan directamente la IA con la percepción, experiencia sensorial y señales corporales humanas — desde gafas AR, pulseras EMG, hasta interfaces cerebro-máquina implantables.

Lo que une estas tecnologías no es una sola innovación, sino una función común: ampliar el ancho de banda y las modalidades de los canales entre humanos e IA — generando datos de interacción humano-mundo que puedan usarse para construir IA física.

La distancia respecto a los paradigmas principales es tanto un reto como una oportunidad. Los modelos de lenguaje entienden conceptualmente estas modalidades, pero no son innatamente familiares con patrones de movimiento silencioso, geometrías de receptores olfativos o dinámicas temporales de señales EMG.

Decodificar estas señales requiere aprender de los canales sensoriales en expansión. Muchas modalidades no tienen corpus de datos a escala de internet; los datos solo pueden generarse desde los propios interfaces — lo que implica una coevolución entre sistema y datos, sin equivalente en IA de lenguaje.

El rendimiento reciente más visible es la rápida adopción de dispositivos portátiles de IA como productos de consumo. Los dispositivos AR, por ejemplo, han mejorado mucho en experiencia y forma, y ya se usan en aplicaciones comerciales e industriales; los dispositivos portátiles centrados en voz permiten a los modelos tener un contexto físico más completo — acompañando realmente al usuario en su entorno.

A largo plazo, las interfaces neuronales podrían abrir canales de interacción más completos. La computación por IA crea una oportunidad para transformar radicalmente la interacción humano-máquina, y empresas como Sesame están desarrollando nuevos canales y dispositivos.

El modo más popular, la voz, también impulsa nuevas formas de interacción. Productos como Wispr Flow priorizan la voz como entrada principal (por su alta densidad informativa y ventajas naturales), y el mercado de interfaces silenciosas mejora. Los dispositivos silenciosos usan sensores para captar movimientos de lengua y cuerdas vocales, y reconocer el habla sin sonido — una modalidad con mayor densidad de información que la voz convencional.

Las interfaces cerebro-máquina (invasivas y no invasivas) representan un avance más profundo, y su ecosistema comercial sigue creciendo. Las señales aparecen en validaciones clínicas, aprobaciones regulatorias, plataformas integradas y capital institucional — un campo que hace unos años era solo académico.

La percepción háptica también entra en la arquitectura de IA corporativa, y algunos modelos en aprendizaje robotizado empiezan a incluir explícitamente el tacto como capacidad prioritaria. Los sensores de olfato se convierten en productos reales: dispositivos portátiles con generadores de olores en miniatura y respuesta en milisegundos, ya demostrados en aplicaciones de realidad mixta; los modelos de olfato comienzan a emparejarse con sistemas visuales para monitoreo químico.

El patrón común en estos avances es que convergen en sus límites: gafas AR generan datos visuales y espaciales de interacción usuario-entorno; pulseras EMG capturan patrones de intención motriz; interfaces silenciosas detectan la relación entre actividad subglótica y habla; BCI con alta resolución captura actividad neuronal; sensores hápticos miden dinámica de contacto. Cada nuevo dispositivo también funciona como plataforma de generación de datos, alimentando modelos en múltiples áreas.

Un robot entrenado con datos de EMG para inferir intención motriz, y otro solo con control remoto, aprenderán estrategias distintas de agarre; una interfaz de laboratorio que responde a comandos subglóticos y otra controlada por teclado ofrecen formas de interacción muy diferentes; un decodificador neural entrenado con datos de BCI de alta densidad produce representaciones de planificación motriz inaccesibles por otros canales.

La difusión de estos dispositivos amplía la dimensión efectiva del espacio de datos para entrenar sistemas de IA física en el mundo real — y en gran parte esto es impulsado por empresas de consumo con recursos, no solo por laboratorios académicos, lo que permite que el ciclo de datos se expanda junto con la adopción del mercado.

Primitiva cinco: Sistemas de agentes en ciclo cerrado

Por último, una primitiva más en el nivel de arquitectura: sistemas que integran percepción, razonamiento y acción en un ciclo continuo, autónomo y en tiempo real, operando sin intervención humana en períodos prolongados.

En modelos de lenguaje, esto se refleja en la emergencia de agentes inteligentes — cadenas de razonamiento, uso de herramientas, autorregulación — que llevan a los modelos de respuestas simples a resolver problemas de forma autónoma. En el mundo físico, un cambio similar está en marcha, pero con requisitos mucho más estrictos: un agente físico que comete errores no puede simplemente retroceder sin costo; si vuelca una botella de reactivo, no puede deshacerlo fácilmente.

Los sistemas de agentes físicos tienen tres características que los diferencian de los digitales:

Primero, necesitan integrarse en experimentos o ciclos de operación cerrados: conectarse directamente a datos instrumentales, sensores de estado físico y primitivas de ejecución, para que el razonamiento se base en la realidad física, no solo en descripciones textuales.

Segundo, requieren persistencia en secuencias largas: memoria, trazabilidad, monitoreo de seguridad y recuperación, enlazando múltiples ciclos de operación, no tratando cada tarea como un episodio independiente.

Tercero, deben adaptarse en ciclo cerrado: ajustar estrategias en función de resultados físicos, no solo en respuesta a retroalimentación textual.

Esta primitiva fusiona capacidades independientes — modelos de mundo precisos, arquitecturas de acción confiables, sensores diversos — en sistemas completos que operan autónomamente en el mundo físico. Es la capa de integración, cuya madurez es condición previa para que estos tres campos puedan desplegarse en entornos reales, no solo en demostraciones académicas.

Tres áreas

Las primitivas descritas son habilitadoras universales, no determinan en qué aplicaciones específicas se desplegarán principalmente. Muchas áreas involucran acción física, medición o percepción física. La diferencia entre «sistemas de frontera» y «mejoras de sistemas existentes» radica en cuánto se benefician de la escalabilidad y el aumento exponencial de capacidades — no solo en rendimiento, sino en la aparición de nuevas habilidades antes imposibles.

Robótica, ciencia impulsada por IA y nuevas interfaces humano-máquina son los tres campos donde este efecto de retroalimentación es más fuerte. Cada uno combina las primitivas de forma única, cada uno está limitado por las restricciones que las primitivas actuales están eliminando, y cada uno genera en su proceso datos estructurados del mundo físico — que a su vez mejoran las primitivas, creando un ciclo de retroalimentación que acelera todo el sistema. No son los únicos en IA física, pero sí los más densos en interacción con la realidad física, y también los que ofrecen mayor espacio para emergencias de nuevas capacidades — además de ser altamente complementarios a la corriente principal de lenguaje y código, beneficiándose de sus ventajas.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado