【Les 1000 questions d'Alibaba avant le cœur】 Lin Junyang écrit un texte de mille mots : les modèles d'IA évolueront vers une « pensée d'entité intelligente » découvrez pourquoi Qwen a abandonné la fusion de la réflexion et du mode commande

robot
Création du résumé en cours

阿里巴巴 (09988)
Le personnage clé du modèle Qwen, Lin Junyang, a soudainement quitté son poste début mars, suscitant des spéculations sur des divergences avec la direction. Alors que la tempête se calme, Lin Junyang a récemment publié sur la plateforme sociale X un article intitulé « From “Reasoning” Thinking to “Agentic” Thinking » (De la « pensée par raisonnement » à la « pensée agentique »). Bien que l’article traite principalement des orientations technologiques de l’IA, il cache une réflexion sur la trajectoire technique d’Alibaba Qwen.

Il souligne que la « pensée par raisonnement » qui consomme purement des capacités de calcul a déjà atteint son apogée, la seconde moitié de l’IA appartiendra à la « pensée agentique » (Agentic Thinking) capable d’interagir avec l’environnement réel, pensant tout en agissant.

Le changement de focalisation de l’IA : que va-t-il se passer ensuite ?

Lin Junyang indique qu’au premier semestre 2025, le centre d’intérêt de l’industrie de l’IA sera principalement axé sur la « pensée par raisonnement » (Reasoning Thinking) — c’est-à-dire comment faire en sorte que les grands modèles consomment plus de temps et de puissance de calcul pour réfléchir, comment utiliser des mécanismes de rétroaction plus puissants pour entraîner les modèles, et comment contrôler ces processus de raisonnement supplémentaires.

Cependant, la question à laquelle l’industrie doit actuellement faire face est : que va-t-il se passer ensuite ?

Il estime que la réponse est sans aucun doute la « pensée agentique » (Agentic Thinking). L’IA de demain ne devrait pas se contenter de réfléchir en vase clos pour donner des réponses, mais plutôt « penser pour agir », elle doit effectuer des déductions tout en interagissant avec l’environnement et mettre à jour et corriger continuellement ses plans en fonction du retour d’informations provenant du monde réel.

Le plan interne de Qwen et l’échec de la « route de fusion »

Lin Junyang a révélé pour la première fois dans son article le plan technique interne de l’équipe Qwen pour début 2025. À l’époque, de nombreux membres espéraient créer un système idéal capable d’unifier les modes de « pensée » et d’« instruction ». La conception de ce système était très ambitieuse :

Régulation intelligente : être capable de juger automatiquement combien de puissance de raisonnement est nécessaire (similaire à bas/moyen/haut niveau) en fonction des mots d’invite (Prompt) et du contexte.

Prise de décision autonome : permettre au modèle de décider lui-même quand répondre rapidement, quand réfléchir profondément, ou d’investir une puissance de calcul importante en cas de problème difficile.

Lin Junyang déclare que Qwen3 est la tentative publique la plus claire dans cette direction, introduisant un « mode de pensée hybride », soulignant un budget de réflexion contrôlable. Cependant, Lin Junyang admet : « Parler de fusion est facile, mais l’exécuter est extrêmement difficile. »

Lin Junyang est d’avis qu’une fusion forcée conduira à un modèle « médiocre », les distributions de données et les objectifs comportementaux derrière les modes de « pensée » et d’« instruction » étant complètement différents ; forcer une fusion entraînera des « comportements de réflexion » devenant verbeux, encombrants et manquant de détermination ; tandis que « les comportements d’instruction » perdront leur clarté et leur efficacité, devenant peu fiables, augmentant même considérablement les coûts d’utilisation pour les utilisateurs commerciaux.

Dans la réalité commerciale, il estime que de nombreux clients d’entreprise ont réellement besoin d’opérations d’instruction pures à haut débit, à faible coût et hautement contrôlables (comme le traitement par lots).

C’est pourquoi l’équipe Qwen a finalement choisi de publier des versions séparées d’instructions (Instruct) et de réflexion (Thinking) dans la série 2507 ultérieure. Lin Junyang pense que séparer les deux permettra à l’équipe de se concentrer plus purement sur la résolution de leurs problèmes de données et d’entraînement respectifs, évitant ainsi de créer « deux personnalités mal adaptées ».

Stratégies des concurrents : la « modération » et l’orientation vers les objectifs d’Anthropic

Contrairement à la route de séparation de Qwen, d’autres laboratoires comme Anthropic et GLM-4.5 choisissent une « voie d’intégration » complètement opposée.

Lin Junyang mentionne en particulier la méthode d’Anthropic (série Claude), affirmant que sa trajectoire de développement montre une rigueur et une modération, Claude 3.7 / Claude 4 alternant entre raisonnement et « utilisation d’outils ».

Pensée orientée vers les objectifs : Anthropic estime que produire de longs chemins de raisonnement ne signifie pas que le modèle soit plus intelligent. Si le modèle s’étend sur chaque petite chose, cela montre en réalité un mauvais allocation des ressources.

Pragmatisme : Si l’objectif est d’écrire du code, la pensée de l’IA devrait être utilisée pour planifier, décomposer des tâches, corriger des bugs et appeler des outils ; si c’est pour un flux de travail d’agent, la pensée devrait être utilisée pour améliorer la qualité d’exécution des tâches à long terme, plutôt que de simplement écrire des « essais de raisonnement » qui semblent impressionnants.

Différence fondamentale entre la pensée par raisonnement et la pensée agentique

Lin Junyang prédit que la « pensée agentique » finira par remplacer le type de raisonnement « statique et monologue » qui manque d’interaction et qui est verbeux. Un système véritablement avancé devrait avoir le droit de rechercher, simuler, exécuter, vérifier et corriger, afin de résoudre les problèmes de manière robuste et efficace.

Changement de critères d’évaluation : passer de « le modèle peut-il résoudre des problèmes mathématiques ? » à « le modèle peut-il progresser en interagissant avec l’environnement ? »

Problèmes réels à traiter :

  • Savoir quand arrêter de réfléchir et agir.
  • Choisir quel outil appeler et dans quel ordre.
  • Être capable de traiter des données d’observation bruyantes et incomplètes provenant de l’environnement réel.
  • Savoir corriger les plans en cas d’échec.
  • Maintenir la cohérence logique lors de dialogues multi-tours et d’appels d’outils répétés.

Trois grands défis techniques pour réaliser la « pensée agentique »

Au-delà des différences au niveau de l’application, Lin Junyang analyse plus en profondeur les énormes défis de développement sous-jacents à la pensée agentique :

Goulots d’étranglement de l’infrastructure d’entraînement (effondrement de l’efficacité des GPU) : L’apprentissage par renforcement agentique (RL) est beaucoup plus difficile que le RL par raisonnement pur. Les agents IA doivent interagir fréquemment avec des outils externes (comme des navigateurs, des bacs d’exécution), et attendre un retour d’information du monde réel peut entraîner un blocage de l’entraînement, réduisant considérablement l’utilisation des GPU. À l’avenir, il sera nécessaire de découpler proprement « entraînement » et « raisonnement ».

« Piratage de récompense » (Reward Hacking) et risque de tricherie : Lorsque le modèle a le droit d’utiliser des outils, il peut facilement apprendre à « tricher » pour obtenir des récompenses système (par exemple, en exploitant des failles pour voir des informations futures), plutôt que de résoudre véritablement des problèmes. Les outils augmentent le risque d’optimisation fallacieuse, et les futurs protocoles anti-tricherie deviendront cruciaux pour les grandes entreprises.

Coordination multi-agents (Multi-agent Orchestration) : Les systèmes futurs ne dépendront plus d’un seul modèle, mais seront composés de plusieurs agents travaillant ensemble. Le système comprendra un « orchestrateur » responsable de la planification, des « agents experts » spécialisés dans des domaines spécifiques, et des « sous-agents » traitant des tâches étroites, afin de contrôler le contexte et d’éviter la contamination du processus de réflexion.

Résumé : les points de concurrence du prochain stade de l’industrie de l’IA

Lin Junyang conclut en soulignant les points de concurrence du prochain stade de l’industrie de l’IA : le futur sujet d’entraînement central ne sera plus seulement le « modèle » lui-même, mais le système intégré « modèle + environnement » (agents et leur faisceau environnant).

L’ère du raisonnement passé : l’avantage vient de meilleurs algorithmes d’apprentissage par renforcement (RL), de signaux de rétroaction plus puissants, et de pipelines d’entraînement extensibles.

L’ère de l’agent future : l’avantage dépendra de la meilleure conception de l’environnement, d’une intégration plus étroite entre entraînement et service (Train-serve integration), d’une ingénierie système plus forte, et de la capacité du modèle à apprendre à assumer les conséquences de ses décisions et à former un « boucle fermée ».

X原文

		财经Hot Talk  
	

	
	
	
	La Chine en tête des ventes de voitures, les prix élevés du pétrole favorisent-ils l'exportation de véhicules électriques ?  
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler