Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
【Les 1000 questions d'Alibaba avant le cœur】 Lin Junyang écrit un texte de mille mots : les modèles d'IA évolueront vers une « pensée d'entité intelligente » découvrez pourquoi Qwen a abandonné la fusion de la réflexion et du mode commande
阿里巴巴 (09988)
Le personnage clé du modèle Qwen, Lin Junyang, a soudainement quitté son poste début mars, suscitant des spéculations sur des divergences avec la direction. Alors que la tempête se calme, Lin Junyang a récemment publié sur la plateforme sociale X un article intitulé « From “Reasoning” Thinking to “Agentic” Thinking » (De la « pensée par raisonnement » à la « pensée agentique »). Bien que l’article traite principalement des orientations technologiques de l’IA, il cache une réflexion sur la trajectoire technique d’Alibaba Qwen.
Il souligne que la « pensée par raisonnement » qui consomme purement des capacités de calcul a déjà atteint son apogée, la seconde moitié de l’IA appartiendra à la « pensée agentique » (Agentic Thinking) capable d’interagir avec l’environnement réel, pensant tout en agissant.
Le changement de focalisation de l’IA : que va-t-il se passer ensuite ?
Lin Junyang indique qu’au premier semestre 2025, le centre d’intérêt de l’industrie de l’IA sera principalement axé sur la « pensée par raisonnement » (Reasoning Thinking) — c’est-à-dire comment faire en sorte que les grands modèles consomment plus de temps et de puissance de calcul pour réfléchir, comment utiliser des mécanismes de rétroaction plus puissants pour entraîner les modèles, et comment contrôler ces processus de raisonnement supplémentaires.
Cependant, la question à laquelle l’industrie doit actuellement faire face est : que va-t-il se passer ensuite ?
Il estime que la réponse est sans aucun doute la « pensée agentique » (Agentic Thinking). L’IA de demain ne devrait pas se contenter de réfléchir en vase clos pour donner des réponses, mais plutôt « penser pour agir », elle doit effectuer des déductions tout en interagissant avec l’environnement et mettre à jour et corriger continuellement ses plans en fonction du retour d’informations provenant du monde réel.
Le plan interne de Qwen et l’échec de la « route de fusion »
Lin Junyang a révélé pour la première fois dans son article le plan technique interne de l’équipe Qwen pour début 2025. À l’époque, de nombreux membres espéraient créer un système idéal capable d’unifier les modes de « pensée » et d’« instruction ». La conception de ce système était très ambitieuse :
Régulation intelligente : être capable de juger automatiquement combien de puissance de raisonnement est nécessaire (similaire à bas/moyen/haut niveau) en fonction des mots d’invite (Prompt) et du contexte.
Prise de décision autonome : permettre au modèle de décider lui-même quand répondre rapidement, quand réfléchir profondément, ou d’investir une puissance de calcul importante en cas de problème difficile.
Lin Junyang déclare que Qwen3 est la tentative publique la plus claire dans cette direction, introduisant un « mode de pensée hybride », soulignant un budget de réflexion contrôlable. Cependant, Lin Junyang admet : « Parler de fusion est facile, mais l’exécuter est extrêmement difficile. »
Lin Junyang est d’avis qu’une fusion forcée conduira à un modèle « médiocre », les distributions de données et les objectifs comportementaux derrière les modes de « pensée » et d’« instruction » étant complètement différents ; forcer une fusion entraînera des « comportements de réflexion » devenant verbeux, encombrants et manquant de détermination ; tandis que « les comportements d’instruction » perdront leur clarté et leur efficacité, devenant peu fiables, augmentant même considérablement les coûts d’utilisation pour les utilisateurs commerciaux.
Dans la réalité commerciale, il estime que de nombreux clients d’entreprise ont réellement besoin d’opérations d’instruction pures à haut débit, à faible coût et hautement contrôlables (comme le traitement par lots).
C’est pourquoi l’équipe Qwen a finalement choisi de publier des versions séparées d’instructions (Instruct) et de réflexion (Thinking) dans la série 2507 ultérieure. Lin Junyang pense que séparer les deux permettra à l’équipe de se concentrer plus purement sur la résolution de leurs problèmes de données et d’entraînement respectifs, évitant ainsi de créer « deux personnalités mal adaptées ».
Stratégies des concurrents : la « modération » et l’orientation vers les objectifs d’Anthropic
Contrairement à la route de séparation de Qwen, d’autres laboratoires comme Anthropic et GLM-4.5 choisissent une « voie d’intégration » complètement opposée.
Lin Junyang mentionne en particulier la méthode d’Anthropic (série Claude), affirmant que sa trajectoire de développement montre une rigueur et une modération, Claude 3.7 / Claude 4 alternant entre raisonnement et « utilisation d’outils ».
Pensée orientée vers les objectifs : Anthropic estime que produire de longs chemins de raisonnement ne signifie pas que le modèle soit plus intelligent. Si le modèle s’étend sur chaque petite chose, cela montre en réalité un mauvais allocation des ressources.
Pragmatisme : Si l’objectif est d’écrire du code, la pensée de l’IA devrait être utilisée pour planifier, décomposer des tâches, corriger des bugs et appeler des outils ; si c’est pour un flux de travail d’agent, la pensée devrait être utilisée pour améliorer la qualité d’exécution des tâches à long terme, plutôt que de simplement écrire des « essais de raisonnement » qui semblent impressionnants.
Différence fondamentale entre la pensée par raisonnement et la pensée agentique
Lin Junyang prédit que la « pensée agentique » finira par remplacer le type de raisonnement « statique et monologue » qui manque d’interaction et qui est verbeux. Un système véritablement avancé devrait avoir le droit de rechercher, simuler, exécuter, vérifier et corriger, afin de résoudre les problèmes de manière robuste et efficace.
Changement de critères d’évaluation : passer de « le modèle peut-il résoudre des problèmes mathématiques ? » à « le modèle peut-il progresser en interagissant avec l’environnement ? »
Problèmes réels à traiter :
Trois grands défis techniques pour réaliser la « pensée agentique »
Au-delà des différences au niveau de l’application, Lin Junyang analyse plus en profondeur les énormes défis de développement sous-jacents à la pensée agentique :
Goulots d’étranglement de l’infrastructure d’entraînement (effondrement de l’efficacité des GPU) : L’apprentissage par renforcement agentique (RL) est beaucoup plus difficile que le RL par raisonnement pur. Les agents IA doivent interagir fréquemment avec des outils externes (comme des navigateurs, des bacs d’exécution), et attendre un retour d’information du monde réel peut entraîner un blocage de l’entraînement, réduisant considérablement l’utilisation des GPU. À l’avenir, il sera nécessaire de découpler proprement « entraînement » et « raisonnement ».
« Piratage de récompense » (Reward Hacking) et risque de tricherie : Lorsque le modèle a le droit d’utiliser des outils, il peut facilement apprendre à « tricher » pour obtenir des récompenses système (par exemple, en exploitant des failles pour voir des informations futures), plutôt que de résoudre véritablement des problèmes. Les outils augmentent le risque d’optimisation fallacieuse, et les futurs protocoles anti-tricherie deviendront cruciaux pour les grandes entreprises.
Coordination multi-agents (Multi-agent Orchestration) : Les systèmes futurs ne dépendront plus d’un seul modèle, mais seront composés de plusieurs agents travaillant ensemble. Le système comprendra un « orchestrateur » responsable de la planification, des « agents experts » spécialisés dans des domaines spécifiques, et des « sous-agents » traitant des tâches étroites, afin de contrôler le contexte et d’éviter la contamination du processus de réflexion.
Résumé : les points de concurrence du prochain stade de l’industrie de l’IA
Lin Junyang conclut en soulignant les points de concurrence du prochain stade de l’industrie de l’IA : le futur sujet d’entraînement central ne sera plus seulement le « modèle » lui-même, mais le système intégré « modèle + environnement » (agents et leur faisceau environnant).
L’ère du raisonnement passé : l’avantage vient de meilleurs algorithmes d’apprentissage par renforcement (RL), de signaux de rétroaction plus puissants, et de pipelines d’entraînement extensibles.
L’ère de l’agent future : l’avantage dépendra de la meilleure conception de l’environnement, d’une intégration plus étroite entre entraînement et service (Train-serve integration), d’une ingénierie système plus forte, et de la capacité du modèle à apprendre à assumer les conséquences de ses décisions et à former un « boucle fermée ».
X原文