Diálogo con el fundador de Chance AI: Ver otra forma de ver el mundo, salir del muro de la "homogeneización de los grandes modelos"

En la competencia de IA a escala sin precedentes en la actualidad, “los modelos grandes” se han convertido en la respuesta predeterminada de todas las empresas. Todos están actualizando su capacidad de cómputo, compitiendo por métricas y ocupando toda clase de entradas. Sin embargo, justo cuando el relato de la industria se vuelve cada vez más convergente, aparece una startup que casi niega todos los enfoques habituales de la corriente principal: Chance AI.

El fundador, Zeng Xi, quitó el cuadro de entrada de la página de inicio y creó una app de IA que no requiere que hagas preguntas. Solo debes levantar la mano y dar un toque, y te ayudará a interpretar con texto cualquier cosa que veas, lo cual encaja más con la intuición.

En el lugar, Zeng Xi nos mostró con una foto de un par de zapatillas Air Jordan 1, y Chance AI nos dijo que valían 300.000 dólares. ¿Por qué? Porque era ese mismo par que Jordan llevaba en las Finales de aquel entonces; además, también puede ayudar a chicas a ver el conjunto. Antes de salir, tomas un selfie y la app le dice: si cambia este conjunto por un pañuelo de otro color, o si añade una bolsa de cierto color, la combinación será de mayor acierto.

Muy pronto, después de ganar popularidad entre estudiantes universitarios de Norteamérica, el equipo fue en busca de los llamados de la generación joven y desarrolló una serie de funciones, como comentar OOTD (atuendo del día, diario de estilo), leer la palma, analizar el tipo de piel y comentarios sarcásticos, entre otras.

Más que solo interpretar: los usuarios también pueden compartir en un solo clic en la comunidad integrada en Chance AI. “Lo que se ve” se convierte en un tema de conversación propio del usuario, y un grupo de jóvenes de 18 a 25 años se reúne a partir de ahí.

El CTO, Wu Xiaofan, le reveló a Wall Street Insight que Chance AI ya ha atraído a unos 250.000 usuarios en todo el mundo.

De este modo, poco a poco fue tomando forma una combinación con la forma de Google Lens + Xiaohongshu e Instagram, y Chance AI también reunió, en su fase inicial, los elementos necesarios para un producto viral. Además, cuanto más lo usan los jóvenes, más puede captar sus necesidades reales. Zeng Xi dijo: “Con nuestros más de 200.000 usuarios, cada chica de Norteamérica se toma al día, en promedio, 2,8 fotos de su vestimenta; qué cantidad tan aterradora de datos”.

Con los “yacimientos” de riqueza que las grandes empresas y el e-commerce anhelan, Zeng Xi y su equipo sin embargo no se apresuraron a monetizar. Tampoco planean seguir a ciegas la moda actual de la IA en hardware, e incluso por ahora no se atreven a hacer una campaña a mayor escala, por miedo a que la infraestructura no dé abasto para “la lluvia de riqueza” que podría caer de golpe.

Pretenden seguir puliendo su propio visual Agent, haciendo que este “cerebro visual” sea más potente, para acumular datos más ricos, formar una comunidad visual y acelerar el “efecto bola de nieve”.

En un momento en que los productos de IA se van homogeneizando gradualmente, Zeng Xi se convirtió en una de las pocas minorías que se escapan del relato dominante. Pero al mismo tiempo, encontró un consenso de la intuición humana: si el 70% del ancho de banda del cerebro humano se utiliza para procesar lo visual, entonces la futura entrada de la IA no debería seguir siendo monopolizada por un solo cuadro de entrada.

La elección de Chance AI quizá sea audaz, pero en un sector cada vez más competido, precisamente por su escasez resulta aún más digno de observar.

Llevar la interacción de vuelta a la intuición visual

Cuando la industria ya está acostumbrada a definir los límites del producto con la forma “la persona pregunta y la IA responde”, Chance AI, el fundador Zeng Xi, planteó a Wall Street Insight una pregunta: “¿Por qué los ojos no están en el culo?”

Porque en la lógica de evolución humana, la visión es un principio de primera base, y el lenguaje solo es un sistema de codificación que apareció más tarde.

Zeng Xi mencionó que, desde el punto de vista evolutivo, alrededor del 70% de la información que procesa el cerebro humano está relacionada con la visión: antes de que apareciera el lenguaje, los humanos ya dependían de la visión para identificar el entorno y juzgar el peligro y las oportunidades.

En la última década, todas las formas de interacción principales han sido estandarizadas por el cuadro de entrada. Los usuarios deben saber de antemano cuál es la pregunta. Deben traducir sus necesidades en lenguaje y luego entregar ese lenguaje a un modelo.

Para la mayoría de la gente, esta forma no es natural. Cuando una persona ve en la calle un edificio extraño, un arte desconocido o un símbolo borroso, su primera reacción es “me atrae”, mientras que la pregunta surge después de que se capta la atención.

Zeng Xi dijo: “Los prompts están preparados para una IA perezosa.”

Con esto no quiere atacar el ecosistema de prompt, sino que cree que, en la mayoría de los casos, los prompts son la forma en que la persona ayuda al modelo a trabajar: completan la cadena de razonamiento que le falta al modelo. Si la IA es realmente lo bastante inteligente, no debería depender de que las personas le enseñen “cómo preguntar”; debería poder comprender de manera proactiva lo que el usuario le presta atención a través de pistas visuales.

Zeng Xi contó una historia a Wall Street Insight. Dijo que él es un entusiasta del arte y que, hace dos años, había creado un pequeño programa de exploración e interpretación de IA para una exposición. Sin embargo, después de que terminó la exposición, Zeng Xi descubrió que aún había más de 1.500 personas usando ese pequeño programa. Tras investigar, se dio cuenta de que esos usuarios ya habían formado memoria muscular: lo usaban para escanear toda clase de flores y plantas, películas y vestimenta, y seguían conversando con la IA.

De hecho, en Zeng Xi hay una fuerte responsabilidad de diseñador: “Nuestra misión es eliminar la brecha entre la tecnología y las personas. La IA quizá parezca un poco ‘fría’ a los ojos de muchos, pero mi objetivo es hacer que sea más natural y más cercana a las necesidades instintivas de los seres humanos: comprender y explorar el mundo mediante la visión”.

Con base en esa valoración, definió directamente la forma del producto. Desde el primer día, Chance AI eliminó el cuadro de entrada de la interfaz central.

“Ver” se convirtió en la acción predeterminada, y “preguntar” pasó a ser una acción opcional. Los usuarios no necesitan organizar el lenguaje, no necesitan construir preguntas con anticipación, y tampoco tienen que esforzarse por encontrar “la forma de preguntar que más le gusta a la IA”. En una industria donde casi todos refuerzan la interacción basada en lenguaje, esta decisión se ve extremadamente contraria a la corriente.

Pero precisamente por eso, evita el camino donde la mayoría de los modelos se agolpan. El cuadro de entrada representa intencionalidad, mientras que la visión representa instinto; el cuadro de entrada enfatiza resolver problemas, mientras que la visión enfatiza despertar la curiosidad. La manera de interactuar de Chance AI, más que parecer una herramienta, es como un entrenamiento de músculo cognitivo.

Sin embargo, los pioneros también asumen riesgos. En estos momentos, la industria ya ha construido una ruta completa para los usuarios en la interacción por lenguaje: desde la búsqueda, pasando por el e-commerce, hasta el modo asistente. Los usuarios también han sido entrenados para depender cada vez más de “hacer preguntas”.

No hay una respuesta definitiva sobre si lo visual puede convertirse realmente en una nueva entrada, ni la forma del hardware está madura. Pero en un sector altamente unificado, al menos Chance AI intenta que las preguntas vuelvan a ser abiertas, en vez de seguir comprimiendo la interacción en un solo cuadro como todos los demás.

De la identificación al razonamiento del significado

El verdadero punto no consensuado de Chance AI no está en que use una cámara, sino en que considera el “interpretar el significado” como la capacidad central de la IA.

Zeng Xi dijo que la inspiración para fundar Chance AI se remonta a cuando era niño y tuvo una observación de《Mona Lisa》. “Cuando me paré frente a ella, que era mucho más pequeña de lo que imaginaba por proporción, con toda la ilusión del mundo pero sin entender del todo el significado… ‘no es más que un cuadro pequeñito, ¿qué tiene de especial?’, la miré de pasada y me fui”.

“Los seres humanos somos animales visuales y también animales de historias. Naturalmente, nos sentimos atraídos por lo que vemos ante nosotros, pero lo que de verdad nos conmueve es la historia que hay detrás”. Más tarde, cuando Zeng Xi tuvo la oportunidad de profundizar en Leonardo da Vinci y en la historia detrás de esta pintura, por fin entendió por qué se le considera una joya de la civilización humana.

Zeng Xi dijo que la misión de Chance AI es usar la tecnología para ayudar a las personas a descubrir esas historias ocultas, y eliminar la brecha entre el ser humano y el mundo. En cuanto al nombre “Chance”, no solo representa “oportunidad”, sino también “contingencia”.

En su opinión, el proceso de evolución biológica depende de la contingencia, y la creación del conocimiento y la creatividad humanas también suele originarse en estos choques casuales. Chance AI espera acelerar esa confluencia de conocimientos conectando lo visual con las historias, para que cada experiencia visual sea más profunda y tenga más sentido.

Mirándolo hacia atrás, en el último año toda la industria ha avanzado con fuerza hacia lo multimodal. Las capacidades principales de los modelos para reconocimiento de imágenes, anotación y descripción se han vuelto cada vez más precisas. Sin embargo, en la visión de Zeng Xi, todas esas capacidades casi tienen un límite común: pueden aclarar “qué es”, pero les cuesta más explicar “por qué es importante”.

La comprensión que los seres humanos tienen del mundo nunca se queda en el nivel de los hechos. Ya sea una explicación de películas, comentarios de partidos de fútbol, una guía de viaje o una explicación de arte, las personas necesitan estos roles porque nos ayudan a transformar hechos en significado, a descomprimir la información en historias y a conectar lo que vemos con sistemas culturales más amplios. En ese sentido, lo visual es una forma de razonamiento.

El producto de Chance AI tomó una decisión clara aquí. No se conforma con ofrecer una descripción objetiva; intenta activar el trasfondo del conocimiento de un objeto, el contexto cultural y el consenso social.

Zeng Xi dio un ejemplo a Wall Street Insight: una piedra ya no es solo “un gran peñasco colocado sobre concreto”, sino LevitatedMass del LACMA en Los Ángeles; es arte público que costó 13,0 millones de dólares en transporte; es una metáfora sobre la estructura de clases urbanas en Estados Unidos. Un edificio no es solo “un rascacielos futurista”, sino una de las obras póstumas de Zaha Hadid; es un símbolo de las flores de bauhinia en capullo.

Este tipo de explicación no se genera automáticamente por el modelo, sino que es un razonamiento de significado proactivo. Su premisa es que el modelo esté dispuesto a intervenir, dispuesto a explicar y dispuesto a asumir cierto riesgo subjetivo. Y eso es precisamente lo que los modelos dominantes rara vez quieren hacer.

En el sector, se considera que la estrategia de los modelos de grandes empresas es extremadamente conservadora: prefieren ofrecer información segura, estandarizada y sin controversias. En cambio, “explicar” implica subjetividad y, por lo tanto, implica controversia. Para un gran producto comercial, esto amplifica el riesgo.

Por eso “el razonamiento del significado” ha sido siempre una zona gris en la industria. Que las grandes compañías no lo hagan no significa que no puedan hacerlo, sino que hacerlo podría generar costos. La orientación de Chance AI le permite asumir esas “explicaciones no determinadas”, y también le permite avanzar más lejos que otros en ese camino de “comprensión visual”.

Pero también es evidente que este modelo tiene limitaciones. El contexto cultural puede desviarse, y la narración del significado puede convertirse en una nueva “adivinación con la IA”. Cuanto más avance el modelo hacia “explicar”, más necesita encontrar un equilibrio entre profundidad y precisión. Para las grandes empresas, esto es un riesgo que no pueden permitirse; para Chance, es un límite que sí debe asumir.

Sin embargo, precisamente porque se sitúa en la zona a la que los gigantes menos quieren entrar, tiene una ventana de tiempo rara vez vista: intenta responder “si la IA puede mejorar la capacidad de comprensión de las personas”. Y sí, acierta con una parte real de la necesidad de ciertas personas: en un mundo saturado de información, la capacidad para juzgar es más escasa que las respuestas, y comprender es más importante que la velocidad.

El problema de Chance AI es que su ruta requiere paciencia, un ecosistema, hardware y una migración de hábitos culturales. Su ventaja está en que se dio cuenta antes que otros de que el próximo cambio en la entrada de la IA podría ocurrir en la visión.

En una era en la que todas las empresas apuestan por los modelos de lenguaje, este juicio parece solitario, pero por eso también merece ser registrado.

Aviso de riesgo y cláusulas de exención de responsabilidad

        Hay riesgo en el mercado; invierte con cautela. Este artículo no constituye asesoramiento de inversión personal y no considera objetivos de inversión especiales de usuarios individuales, situaciones financieras ni necesidades. Los usuarios deben considerar si cualquiera de las opiniones, puntos de vista o conclusiones contenidas en este artículo se ajusta a sus circunstancias específicas. En consecuencia, la inversión corre por cuenta y riesgo del usuario.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado