Las capacidades de los grandes modelos de IA ya superan a las personas en ciertos aspectos, como programación y matemáticas. Se informa que, en el interior de Anthropic, ya casi se ha logrado una programación de IA al 100%, y que Gemini Deep Think de Google resolvió 5 de las 6 preguntas en IMO 2025, alcanzando un nivel de medalla de oro.

Pero en razonamiento visual, incluso Gemini 3 Pro, que está a la vanguardia, solo alcanza el nivel de un niño de 3 años en el Benchmark BabyVision, que evalúa capacidades básicas de razonamiento visual.

¿Por qué los grandes modelos son fuertes en programación y matemáticas, pero débiles en razonamiento visual? Esto se debe a que su “forma de pensar” tiene limitaciones. Los modelos de lenguaje visual (VLM) necesitan convertir primero la entrada visual en lenguaje, y luego realizar razonamiento basado en texto, pero muchas tareas visuales no pueden describirse con precisión mediante palabras, lo que provoca que su capacidad de razonamiento visual sea deficiente.

Andrew Dai, que trabajó 14 años en Google DeepMind, junto con Yinfei Yang, experto en IA de Apple, fundaron una empresa llamada Elorian AI. Su objetivo es elevar la capacidad de razonamiento visual de los modelos del nivel de “niño” a “adulto”, y dotar a los modelos de la verdadera capacidad de pensar de forma nativa en “espacio visual”, para impactar en la AGI del mundo físico.

Elorian AI obtuvo una financiación inicial de 55 millones de dólares en una ronda liderada por Striker Venture Partners, Menlo Ventures y Altimeter, con participación de 49 Palms y destacados científicos de IA como Jeff Dean.

Pioneros en modelos multimodales, buscan dotar a los modelos visuales de capacidad de razonamiento

Como Andrew Dai, de ascendencia china, con una licenciatura en informática en Cambridge y un doctorado en aprendizaje automático en Edimburgo, que hizo prácticas en Google durante su doctorado y se unió a Google en 2012, permaneciendo allí 14 años hasta fundar su propia empresa.

Fuente de la imagen: LinkedIn de Andrew Dai

Poco después de unirse a Google, coescribió junto con Quoc V. Le el primer artículo sobre preentrenamiento y ajuste supervisado de modelos de lenguaje, “Semi-supervised Sequence Learning”. Este trabajo sentó las bases para la creación de GPT. Otro trabajo fundamental suyo es “Glam: Efficient scaling of language models with mixture-of-experts”, que abrió camino a la arquitectura MoE, ahora en uso en modelos de gran escala.

Fuente de la imagen: Google

Durante su tiempo en Google, participó en casi todos los entrenamientos de grandes modelos, desde Plam hasta Gemini 1.5 y Gemini 2.5. Bajo la dirección de Jeff Dean, en 2023 empezó a liderar el equipo de datos de Gemini (incluyendo datos sintéticos), que posteriormente creció a varios cientos de personas.

Fuente de la imagen: LinkedIn de Yinfei Yang

Su cofundador, Yinfei Yang, trabajó en Google Research durante cuatro años, especializándose en aprendizaje multimodal, y luego se unió a Apple, donde lidera el desarrollo de modelos multimodales.

Fuente de la imagen: arXiv

Su investigación representativa, “Scaling up visual and vision-language representation learning with noisy text supervision”, impulsó el avance en el aprendizaje multimodal.

Otros cofundadores de Elorian AI incluyen a Seth Neel, ex profesor asistente en Harvard y experto en datos y IA.

¿Por qué discutir las publicaciones pioneras de los cofundadores de Elorian AI? Porque su objetivo no es solo optimización técnica, sino una actualización paradigmática desde la arquitectura base, para que la IA pase de entender inteligentemente a partir de texto a hacerlo a partir de visuales.

Actualmente, aunque los modelos de IA sobresalen en tareas basadas en texto, incluso los modelos multimodales más avanzados aún fallan en tareas básicas de alineación visual (Visual grounding).

Por ejemplo, ¿cómo encajar con precisión una pieza en un mecanismo, para que funcione más exactamente y eficientemente? Estas tareas espaciales físicas son sencillas para un niño de primaria, pero muy difíciles para los modelos multimodales existentes.

Aquí hay que buscar pistas en la biología. En el cerebro humano, la visión es la base que soporta muchos procesos cognitivos. La capacidad humana de razonar espacial y visualmente es mucho más antigua que la lógica basada en el lenguaje.

Por ejemplo, para enseñar a alguien a recorrer un laberinto, describirlo con palabras puede confundir, pero dibujar un esquema permite entenderlo en segundos.

De igual forma, una ave, aunque no usa lenguaje, puede reconocer y razonar sobre características geográficas a través de la visión, logrando migraciones remotas globales. Esto indica que, para avanzar en la capacidad de razonamiento de las máquinas, la visión probablemente sea la dirección evolutiva correcta.

Imagina que, desde la fase inicial de construcción del modelo, se intente incorporar este instinto visual biológico en el ADN de la IA, creando un modelo multimodal nativo capaz de “entender y procesar simultáneamente texto, imágenes, videos y audio”, dotándolo de comprensión visual. Andrew Dai y su equipo quieren construir un “sinestésico” innato, que enseñe a la máquina no solo a “ver” el mundo, sino a “entenderlo”.

Para Dai y su equipo, comprender profundamente el “mundo físico” real es la clave para la próxima generación de inteligencia artificial, y para alcanzar finalmente la “IA visual general (Visual AGI)”.

El VLM con razonamiento posterior no es el camino correcto hacia la razonamiento visual

Antes, no faltaron equipos que intentaron esto. De hecho, Andrew Dai, en su etapa en el equipo Gemini, ya formaba parte de uno de los equipos líderes en el campo multimodal a nivel global. Pero los modelos multimodales tradicionales siguen siendo principalmente VLM (modelos de lenguaje visual), que funcionan en un esquema de “dos pasos”: primero convertir la entrada visual en lenguaje, y luego realizar razonamiento basado en texto (a veces con ayuda de herramientas externas).

Sin embargo, el razonamiento posterior tiene limitaciones: puede generar alucinaciones en el modelo y muchas tareas visuales no se describen con precisión en palabras.

Además, modelos como NanoBanana, especializados en generación visual, tienen capacidades sobresalientes en generación, pero no en razonamiento. Su “pensamiento” previo a la generación sigue dependiendo de modelos de lenguaje, no de una capacidad de razonamiento nativa.

Para desarrollar modelos que realmente comprendan la complejidad espacial, estructural y relacional del mundo visual, es necesario una innovación disruptiva en la tecnología base.

¿Cómo innovar? Los fundadores de Elorian AI, con años en el campo multimodal, proponen: fusionar el entrenamiento multimodal con una arquitectura completamente nueva diseñada específicamente para el razonamiento multimodal. Abandonan la visión tradicional de tratar las imágenes como entradas estáticas, y entrenan a los modelos para interactuar y manipular directamente las representaciones visuales (Visual representations), para analizar de forma autónoma su estructura, relaciones y restricciones físicas.

Por supuesto, otro elemento clave es la calidad de los datos, que determina el rendimiento y éxito de estos modelos.

Andrew Dai señala que valoran mucho la calidad, la proporción, la fuente y la diversidad de los datos, y que han innovado en la capa de datos, reconstruyendo la cadena de razonamiento en el espacio visual, usando datos sintéticos a gran escala y en profundidad.

Estos esfuerzos, en conjunto, darán lugar a un sistema de IA capaz de ir más allá de la simple percepción visual, hacia un razonamiento visual avanzado.

Este sistema de IA puede ser un modelo base de razonamiento visual: un modelo altamente general, con capacidades específicas de razonamiento visual excepcionales.

Al ser un modelo base universal, sus aplicaciones deben ser amplias.

Primero, en la robótica, puede servir como núcleo neural para sistemas poderosos, dotándolos de la capacidad de operar de forma autónoma en entornos desconocidos.

Por ejemplo, en robótica, enviar un robot a gestionar una falla de seguridad en un entorno peligroso. Esto requiere decisiones rápidas y precisas. Sin un modelo base con razonamiento profundo, no se confiaría en que manipule botones o palancas al azar. Pero si tiene una fuerte capacidad de razonamiento, podría pensar: “Antes de manipular esta consola, tal vez deba tirar de esta palanca para activar la protección de seguridad”.

En gestión de desastres, un modelo con razonamiento visual puede analizar imágenes satelitales para monitorear y prevenir incendios forestales; en ingeniería, entender con precisión planos complejos y diagramas de sistemas. La diferencia clave es que las leyes del mundo físico no se pueden diseñar solo con código, no basta con escribir unas líneas para crear una ala de avión.

Pero, por ahora, los modelos y capacidades de Elorian AI siguen en papel. Planean lanzar en 2026 un modelo que alcance el estado del arte en razonamiento visual, para verificar si sus resultados cumplen con sus promesas.

¿Y cómo cambiará el mundo físico cuando la IA realmente tenga “razonamiento visual”?

Para que la IA entienda y afecte el mundo físico real, la tecnología ha evolucionado varias veces.

Desde la era de reconocimiento de imágenes en la visión por computadora tradicional, hasta los modelos generativos y multimodales, y ahora los modelos de mundo, la comprensión del mundo físico se ha ido profundizando.

Y el modelo base de razonamiento visual probablemente avanzará aún más, porque si la IA puede razonar visualmente, entenderá mucho más profundamente el mundo físico, alcanzando un nivel superior de inteligencia artificial.

Imagina que, con modelos con comprensión profunda y capacidad de manipulación fina, se impulse la industria de la inteligencia embotida y el hardware de IA: robots en producción industrial más confiable, o en el sector médico y de cuidado. Los dispositivos de IA, especialmente los wearables, se convertirán en asistentes personales más inteligentes.

Pero en la base de estas tecnologías, sigue estando la data. Como también mencionó Andrew Dai, la calidad, la proporción, la fuente y la diversidad de los datos determinan el rendimiento del modelo.

En el campo de la IA física, las empresas chinas, en modelos y datos, están más cerca del liderazgo mundial que los grandes modelos de texto. Si logran aprovechar la calidad de los datos y la variedad de escenarios para acelerar la iteración, tanto en inteligencia embotida como en hardware de IA, en aplicaciones industriales, médicas o domésticas, tendrán mayores oportunidades de liderar y crear empresas de nivel mundial.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
Gate13thAnniversaryLive
1.23M Popularidad
#
WCTCTradingChallengeShare8MUSDT
799.48K Popularidad
#
BitcoinBouncesBack
215.81K Popularidad
#
IsraelStrikesIranBTCPlunges
30.66K Popularidad
#
EthereumMemeSeasonReturns
2M Popularidad

Anclado

Usando "razonamiento visual" para explorar el mundo físico AGI, ElorianAI obtiene financiamiento de 55 millones de dólares

Temas de actualidad

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Anclado