Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Décodage du premier long article de Lin Junyang après son départ : 6 leçons pour investir dans l'IA
Trois semaines après avoir quitté Alibaba Qwen, Lin Junyang, autrefois l’une des figures centrales et très remarquées de Qwen Tongyi, a publié son tout premier long article technique public après son départ, intitulé « De la “pensée de raisonnement” à la “pensée agentique” (From “Reasoning” Thinking to “Agentic” Thinking) ».
Ce long article de 6000 mots en anglais fait le bilan de son expérience pratique passée tirée de l’entraînement de ses modèles et de ses observations, et propose de nombreuses orientations susceptibles d’attirer l’attention des participants aux compétitions d’IA.
Dans cet article, Lin expose en détail l’importance du paradigme de pensée « Agent » dans l’entraînement des modèles.
Concernant le rôle de rétroaction des Agents sur l’entraînement des modèles d’IA, l’article précédent de Huajing (Wall Street) « L’éveil amer de l’Agent : l’intelligence passe du langage à l’expérience » avait tenté d’en expliquer la raison à partir de l’apprentissage par renforcement de Sutton, en arguant qu’Agent est la voie incontournable vers un plafond d’intelligence plus élevé.
Et dans cet article, Lin Junyang, s’appuyant sur sa propre expérience de pratique technique au sein de l’équipe Qwen, fournit davantage de références et de preuves « hardcore » à la pensée de l’intelligence d’Agent grâce à des détails d’ingénierie : il pointe plus précisément encore où se situent les problèmes du mode de raisonnement traditionnel, et quels pourraient être les contraintes et points de concurrence essentiels pour les futurs agents.
Pour ceux qui cherchent à comprendre la manière dont la prochaine étape de l’IA va changer de forme, cet article recèle peut-être au moins 6 enseignements d’investissement qui méritent d’être digérés sérieusement.
1. Le rendement marginal décroissant du raisonnement
Au premier semestre 2025, voire plus tôt, l’ensemble du secteur ne faisait qu’une seule chose : amener les modèles à « penser un peu plus longtemps ».
Le o1 d’OpenAI a prouvé que le « raisonnement » peut devenir une capacité centrale spécifiquement entraînée, et l’industrie, excitée, s’est lancée dans cette course aux armements. La croyance centrale tient en une seule phrase : si le modèle consomme plus de calculs pendant la phase de raisonnement, il produira de meilleures réponses.
Mais Lin Junyang avance dans l’article un jugement très posé :
C’est une conclusion qui mérite d’être notée, car elle va à l’encontre des intuitions.
De 2024 à 2025, la logique de tarification du marché des « modèles de raisonnement » reposait sur une hypothèse simple : plus le modèle pense longtemps, meilleure est la réponse ; donc, plus le temps de raisonnement est long, plus la valeur est élevée.
La quantité de consommation de GPU est devenue un indicateur proxy du niveau d’intelligence. Sur le marché primaire, le récit de financement de nombreuses startups reposait aussi sur « nous faisons un raisonnement plus profond ».
Mais Lin Junyang, s’appuyant sur ses expériences concrètes au sein de l’équipe Qwen, montre que cette hypothèse est en train de perdre sa validité. Si un modèle essaie de penser à tous les problèmes de la même manière, de façon aussi longue et exhaustive, cela signifie qu’il n’a pas su évaluer efficacement les priorités, ne compresse pas l’information à temps, et n’agit pas avec décision au moment où il faut. Il écrit :
Si l’objectif est le codage, alors la réflexion doit aider le modèle à naviguer dans le dépôt de code, à planifier les tâches et à récupérer des erreurs ; si l’objectif est un workflow d’agent, alors la réflexion doit améliorer la qualité d’exécution sur des échelles de temps longues, « et non pas produire un texte de raisonnement intermédiaire qui a l’air impressionnant ».
En langage d’investissement, cela revient à dire : le rendement marginal des ressources de calcul pour le raisonnement est en train de décroître.
La stratégie technique consistant à empiler simplement plus de temps de raisonnement s’approche de sa limite d’efficacité économique. Les entreprises qui utilisent encore « la profondeur de raisonnement » comme récit central de valorisation pourraient devoir revoir l’endroit exact où se situe leur véritable fossé de protection.
2. La fragilité du « modèle unifié »
Dans son article, Lin Junyang dévoile un choix de trajectoire peu connu : l’équipe Qwen a déjà tenté de fusionner « le mode de pensée » et « le mode d’instructions » dans un seul et même modèle.
Cet objectif semble naturellement correct. Un système idéal devrait se comporter comme un expert expérimenté : pour les problèmes simples, réponse directe ; pour les problèmes complexes, pensée approfondie ; et, surtout, être capable de décider quand utiliser quel mode.
Qwen3 est l’une des tentatives publiques les plus claires dans cette direction : il introduit un « mode de pensée hybride », permettant à une même famille de modèles d’avoir à la fois des comportements de pensée et des comportements sans pensée, et insiste sur un budget de raisonnement contrôlable.
Mais Lin Junyang reconnaît que fusionner est facile à dire, extrêmement difficile à réaliser, et la difficulté ne se situe pas dans l’architecture du modèle, mais dans les données.
Un modèle d’instructions puissant est récompensé pour sa réponse directe, concise, sa bonne conformité au format, et ses performances à faible latence sur des tâches d’entreprise à haute fréquence et haut débit ; un modèle de pensée puissant, lui, est récompensé par sa volonté d’investir plus de tokens dans les problèmes difficiles, sa capacité à maintenir une structure intermédiaire cohérente, et son aptitude à explorer des voies de rechange.
Ces deux profils de comportement tirent naturellement dans des directions opposées.
Comme le décrit Lin Junyang :
C’est précisément pour cette raison que la version 2507 de Qwen a finalement introduit des mises à jour Instruct et Thinking indépendantes, avec des versions séparées 30B et 235B.
En déploiement commercial, une grande partie des clients a surtout besoin d’un mode d’instructions à fort débit, à faible coût et hautement contrôlable ; une fusion forcée risque au contraire de brouiller la position produit.
Anthropic a pris une voie inverse. Claude 3.7 Sonnet est défini comme un modèle de raisonnement hybride : les utilisateurs peuvent choisir une réponse « standard » ou étendre la pensée ; et Claude 4 va plus loin, en permettant d’entrelacer le processus de raisonnement et l’utilisation des outils. GLM-4.5 et DeepSeek V3.1 ont également, par la suite, suivi une trajectoire similaire.
Face à ces deux approches, le jugement de Lin Junyang est le suivant : une fusion réellement réussie exige que l’investissement en raisonnement forme une échelle continue et lisse, et que le modèle soit capable de s’adapter pour choisir combien d’efforts il doit y consacrer. À défaut, « l’expérience produit ne sera pas naturelle » ; dans l’essence, « ce sont deux personnalités rigides simplement assemblées ».
Pour les investisseurs, la leçon est très directe : ne vous laissez pas facilement convaincre par des récits du type « modèle unifié » ou « un modèle capable de tout ».
Un modèle qui prétend couvrir tous les cas d’usage, et le même modèle qui, réellement, fait le mieux dans chaque cas, sont deux choses différentes.
Les barrières technologiques vraiment précieuses se cachent dans le dosage des données, la conception des processus d’entraînement, l’alignement des comportements : des éléments qu’une simple feuille de résultats de référence ne peut pas capturer. Le “tout-en-un” des PPT de financement, une fois en déploiement commercial, se heurte très souvent à des arbitrages de nature “zéro somme” au niveau des données.
3. Élever le niveau de l’objet d’entraînement
Le résumé le plus lourd en contenu, dans l’ensemble de l’article de Lin Junyang, pourrait être : « Nous passons d’une époque centrée sur l’entraînement des modèles à une époque centrée sur l’entraînement des agents. »
Dans l’article précédent, nous essayions d’argumenter que la logique de cette transition est inévitable : les limites du « plafond » des données statiques sont celles du monde déjà connu ; seul le fait de permettre aux agents d’interagir continuellement dans un environnement réel peut repousser ces limites.
Dans cet article, Lin Junyang donne peut-être à ce jugement un langage d’ingénierie extrêmement concret :
Lin Junyang se concentre sur « la capacité du modèle, pendant son interaction avec l’environnement, à faire avancer continuellement la résolution du problème ». Le problème central passe de « le modèle peut-il penser assez longtemps ? » à « le modèle peut-il penser d’une manière qui soutient des actions efficaces ? ».
Chacun de ces défis correspond à une trajectoire décisionnelle de la structure causale des actions.
Pour l’investissement en IA, le sens de cette transition est extrêmement profond.
Dans le passé, lors des validations généralisées de la scaling law (loi d’échelle), l’indicateur central pour évaluer une société d’IA était le modèle lui-même : combien de paramètres, combien de points aux benchmarks, à quelle vitesse il infère.
Mais si l’objet d’entraînement passe du modèle à un système composé de « modèle + environnement », alors le cadre d’évaluation doit lui aussi évoluer.
Les questions qui auront de la valeur à l’avenir seront, par exemple : cet agent de la société fonctionne-t-il continuellement dans combien de scénarios réels ? Combien de données d’interactions avec une structure causale a-t-il accumulées ? Son couverture de l’environnement est-elle vaste, et ses signaux de feedback sont-ils riches ? La boucle fermée « modèle + environnement » tourne-t-elle rapidement ?
Le modèle n’est qu’une partie du système, il ne les remplace plus tous. Évaluer une société d’agents uniquement à partir du score de benchmark du modèle, c’est comme noter un véhicule tout-terrain avec une mesure de 0-100 : on risque fort de saisir de mauvais indicateurs.
4. Des infrastructures sous-estimées
Dans son article, Lin Junyang consacre beaucoup de place aux infrastructures. C’est une partie plus facile à négliger dans l’investissement IA, mais qui pourrait être celle dont l’impact sur la dynamique concurrentielle est le plus profond.
Dans le renforcement par raisonnement (reinforcement learning à trajectoires de raisonnement), le modèle génère une trajectoire de raisonnement, l’évaluateur donne un score, la mise à jour de stratégie se fait, mais l’environnement n’est qu’un évaluateur statique.
En apprentissage par renforcement des agents, l’ensemble de la logique technique subit une transformation de nature.
Lin Junyang décrit une scène : la stratégie de l’agent est intégrée dans un vaste cadre d’exécution — serveurs d’outils, navigateur, terminal, moteur de recherche, simulateur, bac à sable d’exécution, couche API, système de mémoire, et divers frameworks d’orchestration.
L’environnement n’est plus un spectateur : il devient une partie du système d’entraînement lui-même. Il donne un exemple très visuel : imaginez qu’un agent de codage doive exécuter le code qu’il génère dans un environnement de test en temps réel. Côté raisonnement, le processus se bloque en attendant le feedback de l’exécution ; côté entraînement, il manque les trajectoires de complétion, faute de quoi la pipeline « manque de nourriture ». L’utilisation GPU de toute la chaîne est alors bien inférieure à celle du renforcement classique basé sur l’inférence par raisonnement. Et en ajoutant encore la latence des outils, la partialité de l’observabilité et l’environnement avec état, l’inefficacité ne fait qu’être amplifiée davantage.
Pour comprendre par analogie : l’entraînement des modèles de raisonnement ressemble à faire des exercices dans une salle de classe calme, avec des questions ayant des réponses standard et un feedback immédiat sur le bien et le mal. L’entraînement des agents ressemble à construire sur un chantier bruyant : l’approvisionnement en matériaux est incertain, la météo change, les actions des autres ouvriers affectent votre progression, et dans bien des cas, il faut attendre que le béton sèche pour savoir si le coulage a été correct.
Le niveau d’infrastructure nécessaire pour le mode « salle de classe » et celui pour le mode « chantier » n’est pas du tout le même ordre de grandeur.
C’est pourquoi Lin Junyang insiste sur : « l’entraînement et l’inférence doivent être séparés de manière plus approfondie ». Sinon, le débit d’entraînement des agents s’effondre rapidement : avant même d’atteindre l’objectif de capacité, l’expérience devient lente, douloureuse et difficile à étendre.
C’est peut-être justement le quatrième enseignement pour l’investissement en IA : la logique d’investissement dans les infrastructures IA est en train de subir un transfert structurel.
Dans le passé, la ressource centrale était la puissance de calcul elle-même : celui qui avait plus de GPU gagnait au départ. À l’avenir, la ressource centrale sera la capacité d’ingénierie d’un système complet qui coordonne le processus d’entraînement, la simulation de l’environnement et la collecte du feedback.
Ce type de capacité est extrêmement difficile à reproduire, et les entreprises qui le possèdent sont bien moins nombreuses que celles qui disposent de grands clusters de calcul.
Si la puissance de calcul est de la brique, alors l’infrastructure d’entraînement d’agents, c’est la capacité de conception architecturale : les briques s’achètent, mais la conception ne s’achète pas.
5. La rareté de la qualité de l’environnement
Dans son article, Lin Junyang propose une analogie particulièrement inspirée : « À l’ère du SFT (fine-tuning supervisé), notre obsession était la diversité des données ; à l’ère des agents, nous devrions plutôt obsessionner la qualité de l’environnement : stabilité, authenticité, couverture, difficulté, diversité des états, richesse des feedback, robustesse à l’exploitation (utilization), ainsi que l’évolutivité générée par rollout (exécution complète du processus). »
Au cours des deux dernières années, les données ont été le mot-clé le plus central du récit dans l’investissement en IA. Qui disposait de plus de données d’entraînement de haute qualité disposait aussi de modèles plus forts. Les concepts comme « mur de données », « fossé de données », « data flywheel » ont soutenu une grande partie des logiques de financement et des primes de valorisation.
Mais le jugement de Lin Junyang pointe vers une transformation plus fondamentale :
Lorsque l’objet d’entraînement passe du modèle aux agents, la définition même de la ressource rare change : elle pourrait devenir un certain environnement d’entraînement dynamique, interactif et capable de fournir des signaux de feedback riches.
Dans l’article précédent, nous avons proposé que l’agent « nourrit » le modèle avec « l’ossature de la prise de décision », plutôt qu’avec « l’ombre du langage ».
L’argument de Lin Junyang décrit précisément dans quel atelier cette ossature est forgée — l’environnement est l’atelier, et il détermine la robustesse de l’ossature.
Il va même jusqu’à estimer :
Cela signifie qu’une toute nouvelle catégorie d’actifs d’investissement en IA pourrait être en train de se former. Elle diffère des entreprises de modèles ou de puissance de calcul du passé : ce serait des « entreprises d’environnement » — des sociétés spécialisées dans la construction d’environnements de simulation de haute qualité, hautement fidèles, et capables d’être mises à l’échelle pour l’entraînement des agents.
Si l’objectif d’un agent est de fonctionner dans des paramètres proches de l’environnement de production, alors l’environnement lui-même fait partie intégrante de la pile de capacités. Cette piste n’a presque pas encore été valorisée de manière adéquate par les investisseurs IA grand public aujourd’hui.
Dans l’article, Lin Junyang discute également longuement d’un problème qui se trouve quasiment hors du radar des investisseurs : le reward hacking (triche sur la récompense).
Il révèle, côté entraînement, une dimension de risque particulièrement subtile. Il écrit :
Comme l’article le suppose pour les agents :
C’est un point particulièrement important pour l’investissement en IA.
Lorsqu’on voit une entreprise publier des résultats de benchmarks d’agents particulièrement impressionnants, il faut peut-être poser une question supplémentaire : dans quel environnement ces indicateurs ont-ils été mesurés ? L’environnement a-t-il fait l’objet de conceptions systématiques anti-fuite et anti-triche ? Si un agent est exceptionnel dans les tests, mais que l’environnement de test présente des fuites d’information cachées, alors la valeur commerciale réelle de cette « performance exceptionnelle » pourrait être nulle.
Et le plus dangereux, c’est que les produits basés sur de telles capacités fictives mettront en évidence, dans des scénarios commerciaux réels, des taux d’échec bien supérieurs aux attentes.
À ce sujet, Lin Junyang considère :
Cela signifie que les barrières concurrentielles à l’ère des agents ne se situent peut-être pas uniquement au niveau du modèle, mais aussi dans la rigueur du système d’évaluation et la capacité de conception d’environnements à résister aux failles (anti-fragilité).
Les équipes capables de construire des environnements et des cadres d’évaluation « impossibles à contourner » possèdent une capacité extrêmement rare et difficile à reproduire ;
à l’inverse, celles qui ignorent cette couche et ne poursuivent que des scores de benchmark qui semblent beaux pourraient tout moment rencontrer des problèmes lors du déploiement réel.
En conclusion, Lin Junyang écrit une phrase qui peut servir de ligne directrice à ces six enseignements :
Les barrières concurrentielles à l’époque du raisonnement provenaient de meilleurs algorithmes d’apprentissage par renforcement, de signaux de feedback plus forts et de pipelines d’entraînement plus évolutives.
À l’ère des agents, les barrières concurrentielles proviendront de meilleurs environnements, d’une collaboration plus étroite entre entraînement et inférence, d’une ingénierie de maîtrise plus forte (Harness), ainsi que de la capacité à boucler réellement la décision du modèle avec ses conséquences.
Par le passé, investir dans l’IA consistait à regarder qui avait le modèle le plus fort. À l’avenir, investir dans l’IA regardera très probablement qui a la meilleure boucle fermée de système.
Avertissement sur les risques et clause de non-responsabilité