Dialogue avec le fondateur de Chance AI : voir une autre voie dans le monde, sortir du mur de la « homogénéisation des grands modèles »

Dans la compétition actuelle d’une ampleur sans précédent entre l’IA, « les grands modèles » sont devenus la réponse par défaut de toutes les entreprises. Tout le monde met à niveau sa puissance de calcul, se lance dans le classement, et tente de s’emparer de divers points d’entrée. Cependant, alors que le discours du secteur converge de plus en plus, une jeune entreprise qui semble nier presque toutes les approches dominantes a fait son apparition : Chance AI.

Le fondateur, 曾熙 (Zengxi), a supprimé le champ de saisie de la page d’accueil. Il a créé une appli IA qui ne nécessite pas que vous posiez des questions : il suffit de lever la main et de la taper, et elle peut vous aider à interpréter en texte n’importe quel objet que vous voyez. C’est plus intuitif.

Sur place, 曾熙 a montré une photo de chaussures Air Jordan 1. Chance AI nous a dit qu’elles valaient 300 000 dollars. Pourquoi ? Parce que c’était la paire portée par Jordan lors de la finale de l’époque. Elle peut aussi aider les filles à décrypter leur tenue. Avant de sortir, elle prend un selfie : l’app peut lui dire que si elle change de couleur pour l’écharpe assortie, ou si elle ajoute un sac d’une certaine couleur, l’accord serait plus harmonieux.

Très vite, après avoir séduit la communauté des étudiants en Amérique du Nord, l’équipe a aussi suivi les attentes de la jeune génération. Elle a développé toute une série de fonctions : des avis OOTD (tenues du jour), la lecture de la main, l’analyse de la qualité de la peau, des commentaires sarcastiques, et bien d’autres.

En plus de ne faire « qu’interpréter », les utilisateurs peuvent aussi partager en un clic dans la communauté intégrée de Chance AI. Le « vu » devient alors un sujet de discussion pour l’utilisateur, et un groupe de jeunes âgés de 18 à 25 ans se retrouve ainsi réuni.

Le CTO, 吴晓凡 (Wuxiaofan), a confié à 华尔街见闻 : Chance AI a déjà attiré quelque 250 000 utilisateurs dans le monde.

Ainsi, une forme de Google Lens + 小红书, Instagram, s’est progressivement dessinée. Chance AI a aussi, dans un premier temps, réuni les éléments nécessaires pour un best-seller. Et plus les jeunes l’utilisent, plus elle parvient à capter leurs besoins réels. 曾熙 dit : « Nous avons quelque 200 000 utilisateurs. Chaque jeune femme du Nord de l’Amérique prend en moyenne 2,8 fois par jour des photos de ses tenues. Quel volume de données, c’est effrayant. »

Avec en main les grands groupes et les mines de valeur que le e-commerce convoite ardemment, 曾熙 et son équipe n’ont pourtant pas été pressés de monétiser. Ils n’ont pas non plus l’intention de suivre aveuglément la vague actuelle du matériel IA en vogue, et même, pour l’instant, ils n’osent pas lancer une campagne de plus grande ampleur, de peur que les infrastructures ne tiennent pas le rythme et que « la richesse promise tombe d’un coup » ne surcharge tout.

Ils comptent continuer à affiner leur propre agent visuel, rendre ce « cerveau visuel » plus puissant, accumuler ainsi des données plus riches, former une communauté visuelle, et accélérer l’effet « boule de neige » qui commence à rouler.

À une époque où les produits d’IA finissent progressivement par se ressembler, 曾熙 est devenu l’une des rares voix qui s’écartent du récit dominant. Pourtant, il a déterré un consensus d’une intuition humaine : si 70 % de la bande passante du cerveau humain servent à traiter la vision, alors l’entrée future de l’IA ne devrait pas continuer d’être monopolisée par un seul champ de saisie.

Le choix de Chance AI est peut-être audacieux, mais dans une filière de plus en plus concurrentielle, c’est précisément parce qu’il est rare qu’il mérite d’être observé.

Ramener l’interaction à l’instinct visuel

Quand l’industrie s’est habituée à définir les limites du produit avec un schéma du type « l’humain pose une question, l’IA répond », Chance AI — le fondateur 曾熙 — a posé à 华尔街见闻 une question : « Pourquoi les yeux ne sont pas sur le derrière ? »

Parce que, dans la logique d’évolution des humains, la vision est un principe fondamental, tandis que le langage n’est qu’un système de codage apparu plus tard.

曾熙 a mentionné qu’un point de vue évolutionniste veut que, dans le cerveau humain, environ 70 % du traitement de l’information soit lié à la vision. Avant l’apparition du langage, les humains s’appuyaient déjà sur la vision pour reconnaître l’environnement et évaluer les dangers et les opportunités.

Au cours des dix dernières années, toutes les méthodes d’interaction dominantes ont été standardisées autour du champ de saisie. Les utilisateurs doivent savoir à l’avance quelle est la question ; ils doivent traduire leurs besoins en langage ; puis transmettre ce langage à un modèle.

Pour la plupart des gens, cette approche n’est pas naturelle. Dans la rue, en voyant un bâtiment étrange, une œuvre d’art inconnue, ou un symbole flou, la première réaction est « être attiré », et la question n’apparaît qu’après l’attention.

曾熙 dit : « Les prompts sont préparés pour les IA paresseuses. »

Il ne s’agit pas d’attaquer l’écosystème des prompts. Son point est que, la plupart du temps, les prompts font le travail de l’humain pour le modèle : ils complètent la chaîne d’inférence que le modèle ne possède pas. Si l’IA est vraiment assez intelligente, elle ne devrait pas dépendre du fait que les humains lui apprennent « comment poser des questions ». Elle devrait comprendre activement les centres d’intérêt de l’utilisateur à travers des indices visuels.

曾熙 a raconté une histoire à 华尔街见闻. Il dit qu’il est passionné d’art. Il y a deux ans, il a créé un petit programme pour scanner et commenter une exposition. Mais après la fin de l’exposition, 曾熙 a découvert qu’il y avait encore plus de 1 500 personnes qui utilisaient ce petit programme. Après enquête, il a compris que ces utilisateurs avaient développé une mémoire musculaire : ils l’utilisaient pour scanner toutes sortes de plantes, de films, de vêtements, et continuer à discuter avec l’IA.

En fait, 曾熙 porte en lui une forte responsabilité de designer : « Notre mission est de supprimer la distance entre la technologie et les humains. L’IA peut sembler un peu “hautaine” aux yeux de beaucoup de gens, mais mon objectif est de la rendre plus naturelle, plus proche des besoins instinctifs des humains : comprendre et explorer le monde grâce à la vision. »

Sur la base de ce jugement, la forme du produit est déterminée directement. Chance AI supprime dès le premier jour le champ de saisie de l’interface centrale.

« Regarder » devient l’action par défaut, « demander » une action optionnelle. Les utilisateurs n’ont pas besoin d’organiser leur langage, n’ont pas besoin de construire une question à l’avance, et n’ont pas besoin de faire des efforts pour trouver « la manière de questionner que l’IA préfère ». Alors que, dans l’industrie, presque tout le monde renforce l’interaction par le langage, cette décision apparaît très à contre-courant.

Mais c’est aussi précisément grâce à cela qu’elle évite la plupart des modèles qui se pressent sur la même piste. Le champ de saisie représente un objectif, tandis que la vision représente l’instinct ; le champ de saisie met l’accent sur la résolution de problèmes, tandis que la vision met l’accent sur le déclenchement de la curiosité. L’approche d’interaction de Chance AI ressemble moins à un outil qu’à un entraînement des muscles cognitifs.

Cependant, les pionniers portent aussi des risques. À l’heure actuelle, l’industrie a déjà établi des parcours utilisateurs complets autour de l’interaction en langage : de la recherche au e-commerce, jusqu’au mode assistant. Les utilisateurs sont aussi de plus en plus formés à dépendre du fait de « poser des questions ».

On ne sait pas encore si la vision deviendra réellement une nouvelle entrée. La forme matérielle n’est pas encore mature non plus. Mais dans une filière très standardisée, Chance AI tente au moins de faire en sorte que la question redevienne ouverte, au lieu de continuer — comme tout le monde — à compresser l’interaction dans une seule boîte.

De la reconnaissance à l’inférence du sens

La vraie différence non consensuelle de Chance AI ne réside pas dans le fait qu’elle utilise une caméra. Elle réside dans le fait qu’elle considère « l’explication du sens » comme la capacité centrale de l’IA.

曾熙 dit que son inspiration pour créer Chance AI remonte à une observation, quand il était enfant, de《蒙娜丽莎》(La Joconde). « Quand je me suis tenu face à elle, bien plus petite en proportion que dans mon imagination, plein d’attentes mais incapable d’en comprendre le sens, “ce n’est qu’une petite toile, qu’est-ce qu’il y a d’extraordinaire ?”. J’ai juste jeté un coup d’œil et je suis parti ».

« L’être humain est un animal visuel et aussi un animal d’histoires. Nous sommes naturellement attirés par ce que nous voyons sous nos yeux, mais ce qui nous touche vraiment, c’est l’histoire qui se cache derrière ». Plus tard, lorsque 曾熙 a eu l’occasion d’approfondir la connaissance de Léonard de Vinci et l’histoire derrière cette œuvre, il a enfin compris pourquoi elle est considérée comme un joyau de la civilisation humaine.

曾熙 dit que la mission de Chance AI est d’aider les gens à découvrir ces histoires cachées grâce à la technologie, et de supprimer la distance entre les humains et le monde. Quant au nom « Chance », il ne représente pas seulement « l’opportunité », mais aussi « la contingence » (contingency).

À ses yeux, le processus de l’évolution biologique dépend de la contingence. La naissance des connaissances humaines et de la créativité provient aussi souvent de ces rencontres contingentes. Chance AI espère, en reliant la vision et les histoires, accélérer la convergence de ces connaissances, afin que chaque expérience visuelle soit plus profonde et plus significative.

En regardant en arrière, au cours de la dernière année, l’ensemble du secteur a fortement progressé dans la direction des approches multimodales. Les modèles dominants ont rendu la reconnaissance, l’annotation et la description d’images de plus en plus précises. Pourtant, pour 曾熙, toutes ces capacités ont presque une limite commune : elles savent expliquer « ce que c’est », mais il leur est difficile d’aller plus loin et d’expliquer « pourquoi c’est important ».

La compréhension du monde par les humains ne s’est jamais limitée au niveau des faits. Qu’il s’agisse de commentaires de films, de critiques de matchs de balle, de visites guidées en voyage ou d’explications d’œuvres d’art, la raison pour laquelle nous avons besoin de ces rôles, c’est qu’ils nous aident à transformer les faits en sens, à décompresser l’information en histoire, et à relier ce que l’on voit à un ensemble culturel plus vaste. Dans ce sens, la vision est aussi une manière de raisonner.

Le produit de Chance AI fait un choix évident ici : il ne se contente pas de fournir une description objective, et tente de mobiliser un arrière-plan de connaissances sur un objet, le contexte culturel et le consensus social.

曾熙 a donné un exemple à 华尔街见闻 : une pierre n’est plus seulement « un énorme rocher posé sur du béton », mais « LevitatedMass du LACMA à Los Angeles », une œuvre d’art publique transportée pour 13 millions de dollars, une métaphore sur la structure des classes urbaines américaines. Un immeuble n’est pas seulement « un gratte-ciel futuriste », mais l’une des œuvres tardives de Zaha Hadid, un symbole de la floraison du Bauhinia.

Cette interprétation n’est pas générée automatiquement par le modèle. C’est une forme de raisonnement du sens activement conduite. Son préalable est que le modèle accepte de s’impliquer, d’expliquer, et d’assumer un certain risque subjectif. C’est précisément ce que les modèles dominants sont le moins disposés à faire.

Selon des professionnels du secteur, la stratégie des modèles des grands groupes est extrêmement prudente : ils ont plutôt tendance à fournir des informations sûres, standardisées et sans controverse. Or, l’explication elle-même implique de la subjectivité, et implique aussi des controverses. Pour un grand produit commercial, cela amplifie le risque.

C’est aussi pour cela que « l’inférence du sens » reste une zone grise dans l’industrie. Le fait que les grandes entreprises ne le fassent pas ne veut pas dire qu’elles ne puissent pas le faire : c’est plutôt qu’en le faisant, elles pourraient générer des coûts. La position de Chance AI lui donne la capacité d’assumer ces « explications incertaines » et lui permet d’aller plus loin que les autres sur la voie de la « compréhension visuelle ».

Mais les limites de ce modèle sont également évidentes. Le contexte culturel peut être biaisé, le récit du sens peut devenir une nouvelle forme de « voyance par IA ». Plus le modèle s’avance vers « l’explication », plus il doit trouver un équilibre entre profondeur et exactitude. Pour les grands groupes, c’est un risque qu’ils ne peuvent pas se permettre. Pour Chance, c’est une limite qu’il faut assumer.

Mais parce qu’il se tient dans la zone que les géants ne souhaitent pas aborder, il dispose au contraire d’une fenêtre de temps rare. Il cherche à répondre à la question : « est-ce que l’IA peut améliorer la capacité de compréhension des humains ? » Et il touche effectivement une partie des besoins réels de ces personnes : dans un monde saturé d’informations, le jugement est plus rare que les réponses ; comprendre est plus important que la vitesse.

Le problème de Chance AI, c’est que sa trajectoire exige de la patience, un écosystème, du matériel, et une migration des habitudes culturelles. Son avantage, c’est qu’elle a compris plus tôt que les autres que la prochaine variation de l’entrée de l’IA pourrait se produire via la vision.

À une époque où toutes les entreprises parient sur les modèles de langage, ce jugement semble solitaire. Mais c’est justement pour cela qu’il mérite d’être consigné.

Avertissement sur les risques et clauses de non-responsabilité

        Il existe des risques sur le marché ; investissez avec prudence. Le présent article ne constitue pas un conseil en investissement individuel, et n’a pas tenu compte des objectifs d’investissement particuliers, de la situation financière ou des besoins spécifiques de certains utilisateurs. Les utilisateurs doivent considérer si l’une des opinions, perspectives ou conclusions contenues dans cet article correspond à leur situation particulière. En conséquence, toute décision d’investissement et toute responsabilité relèvent de l’utilisateur.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler