¡La ruptura ocurrirá en estos dos o tres años! Li Dahai, cofundador de Bimodal Intelligence: La nueva generación de interacción hombre-máquina ya muestra un destello de esperanza

CryptocurrencySniper

2026-02-04 19:25:21

Generación de resúmenes en curso

Cuando la inteligencia artificial comienza a pasar de la pantalla al mundo real, la interacción hombre-máquina está experimentando un momento de actualización.

Ya sea en teléfonos móviles, automóviles o en robots y dispositivos wearables que están acelerando su implementación, la interacción por turnos centrada en preguntas y respuestas, que solía ser la principal, está empezando a mostrar problemas como respuestas lentas, percepción fragmentada y interrupciones en el contexto. Las deficiencias innatas de este modo de interacción se están convirtiendo en un cuello de botella clave para que la IA entre en el mundo físico.

El 2 de febrero, Li Dahai, cofundador y CEO de Mianbi Intelligent, en una entrevista con medios incluyendo a los periodistas de 《Diario Económico Diario》, afirmó que ya ha surgido un atisbo de la dirección de una nueva generación de interacción hombre-máquina, pero que la verdadera transición no será de un solo golpe, sino que ocurrirá gradualmente a medida que las capacidades de los modelos en la nube y en el dispositivo continúen mejorando. En este proceso, si los modelos multimodales podrán convertirse en cerebros corporales que conecten la inteligencia digital con el mundo físico, se está convirtiendo en una cuestión central de interés para la industria.

Fuente de la imagen: Mianbi Intelligent

El multimodal no es una simple superposición de funciones, sino un cambio en el paradigma de interacción

Con la IA comenzando a entrar en el mundo físico, y cuando impulsa robots o dispositivos wearables, los modelos tradicionales de interacción hombre-máquina empiezan a mostrar sus limitaciones.

El profesor de planta en la Universidad Tsinghua, Liu Zhiyuan, cofundador y científico jefe de Mianbi Intelligent, opina que para los humanos, escuchar, hablar y ver son canales paralelos, y las personas pueden seguir escuchando y viendo mientras hablan, sin que estos procesos se bloqueen mutuamente. Pero en la interacción hombre-máquina, la mayoría de los modelos anteriores tenían dificultades para tener esta capacidad: “Una vez que empiezas a hablar, no puedes ver, y eso genera problemas.”

Las deficiencias de este modo de interacción limitan la profundidad con la que la IA puede avanzar hacia la inteligencia encarnada. Para Liu Zhiyuan, la capacidad de interacción natural y humanizada es un paso clave para que los robots y terminales inteligentes sean más similares a los humanos. “(El modelo multimodal) y hacer que nuestros futuros robots y terminales inteligentes puedan interactuar de manera natural, probablemente estén más cerca.”

Según esta evaluación, la inteligencia encarnada no es una rama independiente, sino un escenario de aplicación que exige capacidades de interacción más altas en los modelos. Liu Zhiyuan enfatiza que en escenarios como la encarnación y los terminales inteligentes, también se necesitan modelos similares para que puedan servir mejor a los humanos. Liu Zhiyuan estima que la rápida iteración en capacidades de la inteligencia encarnada no está muy lejos: “Si tuviera que decir cuánto falta, probablemente sean solo dos o tres años.”

A nivel industrial, la integración de modelos en el dispositivo y hardware de IA se está convirtiendo en un tema real y complejo.

Para Li Dahai, con la entrada de grandes empresas y la llegada de agentes inteligentes a teléfonos y otros terminales, ya se vislumbra una nueva forma de interacción hombre-máquina, pero esto no significa que el punto de inflexión ya haya llegado. Él opina que esta transición no será de una sola vez: “Todos seguirán explorando en esta dirección, y esto debe ir acompañado de la mejora continua de los modelos en la nube y en el dispositivo.”

Incluso en el escenario ampliamente discutido de los teléfonos móviles, la tecnología todavía enfrenta limitaciones evidentes. Li Dahai señala que, por ejemplo, el teléfono Doubao se apoya en uno de los modelos más avanzados de la industria, pero su tasa de éxito en tareas complejas aún no alcanza un estado completamente usable.

Li Dahai analiza además que, por un lado, las soluciones puramente en la nube enfrentan problemas de privacidad; por otro, el consumo de recursos en el dispositivo, como la potencia de cálculo, hace que la implementación de capacidades multimodales en teléfonos requiera más tiempo. Li Dahai afirma claramente que, cuanto más modos haya, mayor será el consumo de recursos, lo que determina diferencias en el ritmo de desarrollo en distintos tipos de terminales.

Actualmente, la interacción en los teléfonos sigue centrada en la voz y el tacto, con modos relativamente limitados. Li Dahai explica que, tomando como ejemplo el teléfono Doubao, su avance principal es permitir que el agente inteligente pueda operar el teléfono como un humano, realizando tareas complejas en lugar del usuario, lo que equivale a resolver el problema de la salida de información como un humano. La próxima gran evolución, en su opinión, estará en la transformación de los métodos de entrada.

“Actualmente, la sincronización del contexto entre el teléfono y la persona depende de la operación activa en la pantalla. Si en el futuro el teléfono pudiera escuchar y ver el mundo real directamente, podría sincronizarse y compartir el contexto con el usuario de manera más efectiva.” Para Li Dahai, esto sería un paso clave hacia la verdadera inteligencia en los teléfonos, pero también enfrentará desafíos dobles en consumo de energía y protección de la privacidad, exigiendo un diseño de producto más exigente.

En comparación, escenarios como automóviles y robots, debido a condiciones de recursos más flexibles, son considerados por Li Dahai como los destinos con mayor potencial para modelos multimodales. En el campo de la inteligencia encarnada, él cree que el cuello de botella actual no está en el hardware, sino en el cerebro; una vez que haya avances disruptivos en las capacidades de los modelos, la inteligencia encarnada probablemente experimentará una transición similar a la de “ChatGPT”.

La industria será testigo rápido de explosiones en capacidades especializadas y en la interacción

Bajo esta perspectiva, Mianbi Intelligent no se centra en un producto o hardware específico, sino en si puede seguir produciendo modelos de alta calidad de manera continua.

En el campo de la IA, la Ley de Escalamiento (Scaling Law) ha sido considerada una regla de oro, pero la controversia sobre si llegará a un límite nunca ha cesado. Mianbi Intelligent propuso otra visión: la Ley de Densidad (Densing Law), que sostiene que la vida útil de los grandes modelos es muy corta, y su capacidad se duplica aproximadamente cada 100 días. Esto significa que lo importante no es solo desarrollar un modelo excelente, sino tener la capacidad de seguir desarrollando modelos excelentes de manera sostenida.

Mianbi Intelligent se autodenomina como “la litografía para grandes modelos”. Li Dahai explica que esta litografía se refiere a entrenar continuamente modelos de mayor capacidad y densidad.

Liu Zhiyuan añade que la lógica de la Ley de Densidad es similar a la de la industria de chips: la tendencia futura de los grandes modelos será reducir cada vez más su tamaño y aumentar su densidad. Esto permitirá reducir al máximo los costos del modelo y, al mismo tiempo, hacer que sea más probable que funcione en terminales cercanos al usuario, con menor tamaño.

Li Dahai enfatiza que la comercialización de modelos en el dispositivo también forma parte de la validación de capacidades y del ciclo de datos. Depender únicamente de la venta comercial de modelos para desplegarlos en miles de millones de dispositivos puede ser difícil; una vía más realista es promover este proceso a través del ecosistema y los desarrolladores.

En cuanto a la competencia con grandes empresas, Li Dahai opina que las oportunidades para las startups no desaparecen con la entrada de las grandes empresas. La IA sigue siendo una oportunidad a nivel industrial, y el reto para las startups es decidir si ocupan una pequeña porción en un sector muy amplio o si luchan por liderar en un mercado más reducido. “Creo que todavía hay mucho espacio para que todos puedan desarrollarse.”

Sobre las tendencias tecnológicas futuras, Liu Zhiyuan propone dos líneas principales: una, la mejora continua de las capacidades inteligentes; y dos, la utilización eficiente de la inteligencia. Él cree que en uno o dos años, la industria será testigo rápido de modelos cada vez más especializados y de una explosión en capacidades de interacción con el mundo. “(El modelo) como un agente inteligente, tendrá una mayor capacidad de aprendizaje autónomo, que será una tendencia muy importante en uno o dos años. Cuando tenga la capacidad de explorar y aprender de forma autónoma, el siguiente gran avance será la colaboración entre múltiples agentes inteligentes.”

Liu Zhiyuan afirma que en los próximos cinco a diez años, el mundo entrará en una fase de interconexión y colaboración intensiva entre múltiples agentes inteligentes, y emergerá un estado de inteligencia colectiva.

（Fuente: Diario Económico Diario）

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.