Décodage du premier long article de Lin Junyang après son départ : 6 leçons pour investir dans l'IA

Trois semaines après avoir quitté Alibaba Qwen, Lin Junyang, autrefois l’une des figures centrales et très remarquées de Qwen Tongyi, a publié son tout premier long article technique public après son départ, intitulé « De la “pensée de raisonnement” à la “pensée agentique” (From “Reasoning” Thinking to “Agentic” Thinking) ».

Ce long article de 6000 mots en anglais fait le bilan de son expérience pratique passée tirée de l’entraînement de ses modèles et de ses observations, et propose de nombreuses orientations susceptibles d’attirer l’attention des participants aux compétitions d’IA.

Dans cet article, Lin expose en détail l’importance du paradigme de pensée « Agent » dans l’entraînement des modèles.

Concernant le rôle de rétroaction des Agents sur l’entraînement des modèles d’IA, l’article précédent de Huajing (Wall Street) « L’éveil amer de l’Agent : l’intelligence passe du langage à l’expérience » avait tenté d’en expliquer la raison à partir de l’apprentissage par renforcement de Sutton, en arguant qu’Agent est la voie incontournable vers un plafond d’intelligence plus élevé.

Et dans cet article, Lin Junyang, s’appuyant sur sa propre expérience de pratique technique au sein de l’équipe Qwen, fournit davantage de références et de preuves « hardcore » à la pensée de l’intelligence d’Agent grâce à des détails d’ingénierie : il pointe plus précisément encore où se situent les problèmes du mode de raisonnement traditionnel, et quels pourraient être les contraintes et points de concurrence essentiels pour les futurs agents.

Pour ceux qui cherchent à comprendre la manière dont la prochaine étape de l’IA va changer de forme, cet article recèle peut-être au moins 6 enseignements d’investissement qui méritent d’être digérés sérieusement.

1. Le rendement marginal décroissant du raisonnement

Au premier semestre 2025, voire plus tôt, l’ensemble du secteur ne faisait qu’une seule chose : amener les modèles à « penser un peu plus longtemps ».

Le o1 d’OpenAI a prouvé que le « raisonnement » peut devenir une capacité centrale spécifiquement entraînée, et l’industrie, excitée, s’est lancée dans cette course aux armements. La croyance centrale tient en une seule phrase : si le modèle consomme plus de calculs pendant la phase de raisonnement, il produira de meilleures réponses.

Mais Lin Junyang avance dans l’article un jugement très posé :

Un trajet de raisonnement plus long ne rend pas automatiquement le modèle plus intelligent.

Bien souvent, un raisonnement trop explicite expose plutôt une mauvaise allocation des ressources.

C’est une conclusion qui mérite d’être notée, car elle va à l’encontre des intuitions.

De 2024 à 2025, la logique de tarification du marché des « modèles de raisonnement » reposait sur une hypothèse simple : plus le modèle pense longtemps, meilleure est la réponse ; donc, plus le temps de raisonnement est long, plus la valeur est élevée.

La quantité de consommation de GPU est devenue un indicateur proxy du niveau d’intelligence. Sur le marché primaire, le récit de financement de nombreuses startups reposait aussi sur « nous faisons un raisonnement plus profond ».

Mais Lin Junyang, s’appuyant sur ses expériences concrètes au sein de l’équipe Qwen, montre que cette hypothèse est en train de perdre sa validité. Si un modèle essaie de penser à tous les problèmes de la même manière, de façon aussi longue et exhaustive, cela signifie qu’il n’a pas su évaluer efficacement les priorités, ne compresse pas l’information à temps, et n’agit pas avec décision au moment où il faut. Il écrit :

La réflexion doit être façonnée par le travail visé.

Si l’objectif est le codage, alors la réflexion doit aider le modèle à naviguer dans le dépôt de code, à planifier les tâches et à récupérer des erreurs ; si l’objectif est un workflow d’agent, alors la réflexion doit améliorer la qualité d’exécution sur des échelles de temps longues, « et non pas produire un texte de raisonnement intermédiaire qui a l’air impressionnant ».

En langage d’investissement, cela revient à dire : le rendement marginal des ressources de calcul pour le raisonnement est en train de décroître.

La stratégie technique consistant à empiler simplement plus de temps de raisonnement s’approche de sa limite d’efficacité économique. Les entreprises qui utilisent encore « la profondeur de raisonnement » comme récit central de valorisation pourraient devoir revoir l’endroit exact où se situe leur véritable fossé de protection.

2. La fragilité du « modèle unifié »

Dans son article, Lin Junyang dévoile un choix de trajectoire peu connu : l’équipe Qwen a déjà tenté de fusionner « le mode de pensée » et « le mode d’instructions » dans un seul et même modèle.

Cet objectif semble naturellement correct. Un système idéal devrait se comporter comme un expert expérimenté : pour les problèmes simples, réponse directe ; pour les problèmes complexes, pensée approfondie ; et, surtout, être capable de décider quand utiliser quel mode.

Qwen3 est l’une des tentatives publiques les plus claires dans cette direction : il introduit un « mode de pensée hybride », permettant à une même famille de modèles d’avoir à la fois des comportements de pensée et des comportements sans pensée, et insiste sur un budget de raisonnement contrôlable.

Mais Lin Junyang reconnaît que fusionner est facile à dire, extrêmement difficile à réaliser, et la difficulté ne se situe pas dans l’architecture du modèle, mais dans les données.

Un modèle d’instructions puissant est récompensé pour sa réponse directe, concise, sa bonne conformité au format, et ses performances à faible latence sur des tâches d’entreprise à haute fréquence et haut débit ; un modèle de pensée puissant, lui, est récompensé par sa volonté d’investir plus de tokens dans les problèmes difficiles, sa capacité à maintenir une structure intermédiaire cohérente, et son aptitude à explorer des voies de rechange.

Ces deux profils de comportement tirent naturellement dans des directions opposées.

Comme le décrit Lin Junyang :

Si les données de fusion ne sont pas soumises à une sélection et une conception assez fines, le résultat est souvent que les deux côtés finissent par être médiocres : le comportement de pensée devient bruyant, gonflé, hésitant ; tandis que le comportement du mode d’instructions perd alors la rapidité, la fiabilité et l’avantage en termes de coûts qui devraient être les siens.

C’est précisément pour cette raison que la version 2507 de Qwen a finalement introduit des mises à jour Instruct et Thinking indépendantes, avec des versions séparées 30B et 235B.

En déploiement commercial, une grande partie des clients a surtout besoin d’un mode d’instructions à fort débit, à faible coût et hautement contrôlable ; une fusion forcée risque au contraire de brouiller la position produit.

Anthropic a pris une voie inverse. Claude 3.7 Sonnet est défini comme un modèle de raisonnement hybride : les utilisateurs peuvent choisir une réponse « standard » ou étendre la pensée ; et Claude 4 va plus loin, en permettant d’entrelacer le processus de raisonnement et l’utilisation des outils. GLM-4.5 et DeepSeek V3.1 ont également, par la suite, suivi une trajectoire similaire.

Face à ces deux approches, le jugement de Lin Junyang est le suivant : une fusion réellement réussie exige que l’investissement en raisonnement forme une échelle continue et lisse, et que le modèle soit capable de s’adapter pour choisir combien d’efforts il doit y consacrer. À défaut, « l’expérience produit ne sera pas naturelle » ; dans l’essence, « ce sont deux personnalités rigides simplement assemblées ».

Pour les investisseurs, la leçon est très directe : ne vous laissez pas facilement convaincre par des récits du type « modèle unifié » ou « un modèle capable de tout ».

Un modèle qui prétend couvrir tous les cas d’usage, et le même modèle qui, réellement, fait le mieux dans chaque cas, sont deux choses différentes.

Les barrières technologiques vraiment précieuses se cachent dans le dosage des données, la conception des processus d’entraînement, l’alignement des comportements : des éléments qu’une simple feuille de résultats de référence ne peut pas capturer. Le “tout-en-un” des PPT de financement, une fois en déploiement commercial, se heurte très souvent à des arbitrages de nature “zéro somme” au niveau des données.

3. Élever le niveau de l’objet d’entraînement

Le résumé le plus lourd en contenu, dans l’ensemble de l’article de Lin Junyang, pourrait être : « Nous passons d’une époque centrée sur l’entraînement des modèles à une époque centrée sur l’entraînement des agents. »

Dans l’article précédent, nous essayions d’argumenter que la logique de cette transition est inévitable : les limites du « plafond » des données statiques sont celles du monde déjà connu ; seul le fait de permettre aux agents d’interagir continuellement dans un environnement réel peut repousser ces limites.

Dans cet article, Lin Junyang donne peut-être à ce jugement un langage d’ingénierie extrêmement concret :

La pensée de raisonnement accorde de l’importance à la qualité des pensées internes du modèle avant de fournir la réponse finale. Par exemple : peut-il résoudre un théorème, produire une preuve, générer un code correct, passer des tests de référence.

Tout cela se produit dans un environnement fermé et contrôlable : c’est un spectacle intellectuel indépendant.

L’objectif d’optimisation de la pensée agentique est complètement différent.

Elle doit gérer des problèmes que les modèles de raisonnement peuvent éviter : décider quand arrêter de penser et passer à l’action ; choisir quel outil appeler et dans quel ordre ; absorber le bruit provenant de l’environnement ou des observations incomplètes ; réviser le plan après un échec ; maintenir la cohérence entre plusieurs tours d’interaction.

Lin Junyang se concentre sur « la capacité du modèle, pendant son interaction avec l’environnement, à faire avancer continuellement la résolution du problème ». Le problème central passe de « le modèle peut-il penser assez longtemps ? » à « le modèle peut-il penser d’une manière qui soutient des actions efficaces ? ».

Chacun de ces défis correspond à une trajectoire décisionnelle de la structure causale des actions.

Pour l’investissement en IA, le sens de cette transition est extrêmement profond.

Dans le passé, lors des validations généralisées de la scaling law (loi d’échelle), l’indicateur central pour évaluer une société d’IA était le modèle lui-même : combien de paramètres, combien de points aux benchmarks, à quelle vitesse il infère.

Mais si l’objet d’entraînement passe du modèle à un système composé de « modèle + environnement », alors le cadre d’évaluation doit lui aussi évoluer.

Les questions qui auront de la valeur à l’avenir seront, par exemple : cet agent de la société fonctionne-t-il continuellement dans combien de scénarios réels ? Combien de données d’interactions avec une structure causale a-t-il accumulées ? Son couverture de l’environnement est-elle vaste, et ses signaux de feedback sont-ils riches ? La boucle fermée « modèle + environnement » tourne-t-elle rapidement ?

Le modèle n’est qu’une partie du système, il ne les remplace plus tous. Évaluer une société d’agents uniquement à partir du score de benchmark du modèle, c’est comme noter un véhicule tout-terrain avec une mesure de 0-100 : on risque fort de saisir de mauvais indicateurs.

4. Des infrastructures sous-estimées

Dans son article, Lin Junyang consacre beaucoup de place aux infrastructures. C’est une partie plus facile à négliger dans l’investissement IA, mais qui pourrait être celle dont l’impact sur la dynamique concurrentielle est le plus profond.

Dans le renforcement par raisonnement (reinforcement learning à trajectoires de raisonnement), le modèle génère une trajectoire de raisonnement, l’évaluateur donne un score, la mise à jour de stratégie se fait, mais l’environnement n’est qu’un évaluateur statique.

En apprentissage par renforcement des agents, l’ensemble de la logique technique subit une transformation de nature.

Lin Junyang décrit une scène : la stratégie de l’agent est intégrée dans un vaste cadre d’exécution — serveurs d’outils, navigateur, terminal, moteur de recherche, simulateur, bac à sable d’exécution, couche API, système de mémoire, et divers frameworks d’orchestration.

L’environnement n’est plus un spectateur : il devient une partie du système d’entraînement lui-même. Il donne un exemple très visuel : imaginez qu’un agent de codage doive exécuter le code qu’il génère dans un environnement de test en temps réel. Côté raisonnement, le processus se bloque en attendant le feedback de l’exécution ; côté entraînement, il manque les trajectoires de complétion, faute de quoi la pipeline « manque de nourriture ». L’utilisation GPU de toute la chaîne est alors bien inférieure à celle du renforcement classique basé sur l’inférence par raisonnement. Et en ajoutant encore la latence des outils, la partialité de l’observabilité et l’environnement avec état, l’inefficacité ne fait qu’être amplifiée davantage.

Pour comprendre par analogie : l’entraînement des modèles de raisonnement ressemble à faire des exercices dans une salle de classe calme, avec des questions ayant des réponses standard et un feedback immédiat sur le bien et le mal. L’entraînement des agents ressemble à construire sur un chantier bruyant : l’approvisionnement en matériaux est incertain, la météo change, les actions des autres ouvriers affectent votre progression, et dans bien des cas, il faut attendre que le béton sèche pour savoir si le coulage a été correct.

Le niveau d’infrastructure nécessaire pour le mode « salle de classe » et celui pour le mode « chantier » n’est pas du tout le même ordre de grandeur.

C’est pourquoi Lin Junyang insiste sur : « l’entraînement et l’inférence doivent être séparés de manière plus approfondie ». Sinon, le débit d’entraînement des agents s’effondre rapidement : avant même d’atteindre l’objectif de capacité, l’expérience devient lente, douloureuse et difficile à étendre.

C’est peut-être justement le quatrième enseignement pour l’investissement en IA : la logique d’investissement dans les infrastructures IA est en train de subir un transfert structurel.

Dans le passé, la ressource centrale était la puissance de calcul elle-même : celui qui avait plus de GPU gagnait au départ. À l’avenir, la ressource centrale sera la capacité d’ingénierie d’un système complet qui coordonne le processus d’entraînement, la simulation de l’environnement et la collecte du feedback.

Ce type de capacité est extrêmement difficile à reproduire, et les entreprises qui le possèdent sont bien moins nombreuses que celles qui disposent de grands clusters de calcul.

Si la puissance de calcul est de la brique, alors l’infrastructure d’entraînement d’agents, c’est la capacité de conception architecturale : les briques s’achètent, mais la conception ne s’achète pas.

5. La rareté de la qualité de l’environnement

Dans son article, Lin Junyang propose une analogie particulièrement inspirée : « À l’ère du SFT (fine-tuning supervisé), notre obsession était la diversité des données ; à l’ère des agents, nous devrions plutôt obsessionner la qualité de l’environnement : stabilité, authenticité, couverture, difficulté, diversité des états, richesse des feedback, robustesse à l’exploitation (utilization), ainsi que l’évolutivité générée par rollout (exécution complète du processus). »

Au cours des deux dernières années, les données ont été le mot-clé le plus central du récit dans l’investissement en IA. Qui disposait de plus de données d’entraînement de haute qualité disposait aussi de modèles plus forts. Les concepts comme « mur de données », « fossé de données », « data flywheel » ont soutenu une grande partie des logiques de financement et des primes de valorisation.

Mais le jugement de Lin Junyang pointe vers une transformation plus fondamentale :

Lorsque l’objet d’entraînement passe du modèle aux agents, la définition même de la ressource rare change : elle pourrait devenir un certain environnement d’entraînement dynamique, interactif et capable de fournir des signaux de feedback riches.

Dans l’article précédent, nous avons proposé que l’agent « nourrit » le modèle avec « l’ossature de la prise de décision », plutôt qu’avec « l’ombre du langage ».

L’argument de Lin Junyang décrit précisément dans quel atelier cette ossature est forgée — l’environnement est l’atelier, et il détermine la robustesse de l’ossature.

Il va même jusqu’à estimer :

La construction d’environnements est déjà en train de passer de « projet secondaire facile à faire » à une véritable piste de course entrepreneuriale.

Cela signifie qu’une toute nouvelle catégorie d’actifs d’investissement en IA pourrait être en train de se former. Elle diffère des entreprises de modèles ou de puissance de calcul du passé : ce serait des « entreprises d’environnement » — des sociétés spécialisées dans la construction d’environnements de simulation de haute qualité, hautement fidèles, et capables d’être mises à l’échelle pour l’entraînement des agents.

Si l’objectif d’un agent est de fonctionner dans des paramètres proches de l’environnement de production, alors l’environnement lui-même fait partie intégrante de la pile de capacités. Cette piste n’a presque pas encore été valorisée de manière adéquate par les investisseurs IA grand public aujourd’hui.

  1. Le risque implicite de la triche

Dans l’article, Lin Junyang discute également longuement d’un problème qui se trouve quasiment hors du radar des investisseurs : le reward hacking (triche sur la récompense).

Il révèle, côté entraînement, une dimension de risque particulièrement subtile. Il écrit :

Dès que le modèle obtient un véritable accès utile aux outils, le reward hacking devient beaucoup plus dangereux.

Comme l’article le suppose pour les agents :

Un modèle doté de capacités de recherche peut apprendre, pendant l’apprentissage par renforcement, à chercher directement la réponse plutôt qu’à apprendre à raisonner ;

Un agent de codage peut exploiter les informations futures dans un dépôt de code, abuser des journaux, ou découvrir des raccourcis qui rendent la tâche elle-même invalide ;

Un environnement avec des fuites d’information cachées peut faire sembler la stratégie comme « celle d’un surhomme », alors qu’en réalité, elle n’a appris que de la triche.

Des outils plus puissants rendent le modèle plus utile, mais élargissent aussi la surface d’attaque des fausses optimisations. Plus les outils sont puissants, plus les manières de tricher sont nombreuses.

C’est un point particulièrement important pour l’investissement en IA.

Lorsqu’on voit une entreprise publier des résultats de benchmarks d’agents particulièrement impressionnants, il faut peut-être poser une question supplémentaire : dans quel environnement ces indicateurs ont-ils été mesurés ? L’environnement a-t-il fait l’objet de conceptions systématiques anti-fuite et anti-triche ? Si un agent est exceptionnel dans les tests, mais que l’environnement de test présente des fuites d’information cachées, alors la valeur commerciale réelle de cette « performance exceptionnelle » pourrait être nulle.

Et le plus dangereux, c’est que les produits basés sur de telles capacités fictives mettront en évidence, dans des scénarios commerciaux réels, des taux d’échec bien supérieurs aux attentes.

À ce sujet, Lin Junyang considère :

Il faut s’attendre à ce que la prochaine série de véritables goulots d’étranglement pour des recherches sérieuses provienne de la conception des environnements, de la robustesse des évaluateurs, des protocoles anti-triche, ainsi que d’une conception plus principielle des interfaces entre la stratégie et le monde.

Cela signifie que les barrières concurrentielles à l’ère des agents ne se situent peut-être pas uniquement au niveau du modèle, mais aussi dans la rigueur du système d’évaluation et la capacité de conception d’environnements à résister aux failles (anti-fragilité).

Les équipes capables de construire des environnements et des cadres d’évaluation « impossibles à contourner » possèdent une capacité extrêmement rare et difficile à reproduire ;

à l’inverse, celles qui ignorent cette couche et ne poursuivent que des scores de benchmark qui semblent beaux pourraient tout moment rencontrer des problèmes lors du déploiement réel.

En conclusion, Lin Junyang écrit une phrase qui peut servir de ligne directrice à ces six enseignements :

Le chemin d’évolution à venir sera de l’entraînement des modèles, vers l’entraînement des agents, puis vers l’entraînement des systèmes.

Les barrières concurrentielles à l’époque du raisonnement provenaient de meilleurs algorithmes d’apprentissage par renforcement, de signaux de feedback plus forts et de pipelines d’entraînement plus évolutives.

À l’ère des agents, les barrières concurrentielles proviendront de meilleurs environnements, d’une collaboration plus étroite entre entraînement et inférence, d’une ingénierie de maîtrise plus forte (Harness), ainsi que de la capacité à boucler réellement la décision du modèle avec ses conséquences.

Par le passé, investir dans l’IA consistait à regarder qui avait le modèle le plus fort. À l’avenir, investir dans l’IA regardera très probablement qui a la meilleure boucle fermée de système.

Avertissement sur les risques et clause de non-responsabilité

        Il existe des risques sur le marché, l’investissement doit être prudent. Cet article ne constitue pas un conseil d’investissement personnel et ne prend pas en compte les objectifs d’investissement spécifiques, la situation financière ou les besoins particuliers de certains utilisateurs. Les utilisateurs doivent évaluer si les opinions, points de vue ou conclusions de cet article correspondent à leur situation spécifique. En conséquence, l’utilisateur assume l’entière responsabilité de l’investissement.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler