CITIC Securities : DeepSeek, le nouveau modèle de prochaine génération, devrait poursuivre la voie des modèles open source à haute performance et bon rapport qualité-prix

robot
Création du résumé en cours

La note de recherche de China Citic Securities indique qu’à partir de 2026, les fabricants nationaux de grands modèles se concentrent sur la mise à niveau des capacités d’Agent et de code, et publient en concurrence de nouveaux modèles. Nous pensons que le prochain modèle de nouvelle génération de DeepSeek à venir pourrait prolonger la voie des modèles open source offrant un excellent rapport coût-efficacité. Sur le plan des capacités, il devrait permettre une fonction de mémoire plus puissante et une gestion de contextes ultra longs, en affinant les capacités de code et d’Agent tout en comblant les lacunes en multimodalité, ce qui apportera de nouvelles opportunités d’investissement dans les directions des fabricants de modèles, des applications IA et des infrastructures IA.

1、Fabricants de modèles : le nouveau modèle de génération de DeepSeek pourrait s’associer à d’autres modèles domestiques, afin d’accélérer le passage de l’IA chinoise vers le monde. Dans le même temps, la formation des modèles permet d’aller encore plus loin dans la réduction des coûts : des tokens moins chers stimulent globalement l’augmentation du volume d’appels des API de grands modèles à l’échelle mondiale. 2、Applications IA : l’égalité d’accès aux modèles aide à atténuer l’anxiété du marché provoquée par le récit de la contradiction entre les modèles et les applications, favorise le déploiement d’Agents IA dans des milliers d’industries, et est favorable aux sociétés d’applications IA dotées de barrières ; 3、Infrastructures IA : la réduction des coûts entraîne une hausse de l’utilisation, ce qui profite à l’IA Infra ; l’IA Infra domestique et les modèles domestiques avancent dans la même direction.

Le texte intégral est le suivant

Informatique|DeepSeek : perspectives pour la prochaine génération de modèles

Depuis 2026, les fabricants nationaux de grands modèles se concentrent sur la mise à niveau des capacités d’Agent et de code, et publient en concurrence de nouveaux modèles. Nous pensons que le prochain modèle de nouvelle génération de DeepSeek à venir pourrait prolonger la voie des modèles open source offrant un excellent rapport coût-efficacité. Sur le plan des capacités, il devrait permettre une fonction de mémoire plus puissante et une gestion de contextes ultra longs, en affinant les capacités de code et d’Agent tout en comblant les lacunes en multimodalité, ce qui apportera de nouvelles opportunités d’investissement dans les directions des fabricants de modèles, des applications IA et des infrastructures IA.

Code, Agent, multimodalité native : l’orientation d’évolution des grands modèles mondiaux.

Dans le domaine de la programmation par IA, la mise à niveau des cadres d’entraînement, l’adoption de dépôts de code complets et de traces d’ingénierie comme données d’entraînement, ainsi que l’introduction de chaînes de pensée plus profondes avec exécution multi-étapes et auto-réparation ont permis à l’IA de codage de passer d’outils de complétion de code à des agents autonomes de niveau projet. Harness Engineer pourrait amener les professionnels techniques à passer du rôle d’ingénieur logiciel à celui de gestionnaire d’Agent, afin de faire en sorte que l’IA déploie son efficacité maximale. Dans le domaine des systèmes en grappes de multi-Agents, le produit de niveau phénoménal OpenClaw illustre pleinement le potentiel des systèmes multi-Agents. Des acteurs nationaux comme Zhipu, MiniMax, Tencent, Kimi, etc., ont tous lancé des produits « de type homard », libérant la productivité des employés numériques. Dans le domaine de la multimodalité native, l’architecture de multimodalité native est devenue la direction dominante ; l’encodage par intégration hybride a franchi rapidement un cap. Les modèles nationaux doivent encore faire des percées dans des maillons clés comme l’interaction temps réel audio/vidéo et l’inférence continue transmodale.

▍ Grands modèles nationaux : itérations intensives et améliorations continues des capacités.

1)MiniMax : mise à niveau supplémentaire des capacités de code. Le test M2.7 SWE-Pro obtient 56,22 %, dépassant Gemini 3.1 Pro ; dans le scénario de livraison de projets complets de bout en bout sur le test VIBE-Pro, il obtient 55,6 %, au niveau de Claude Opus 4.6, avec une compréhension encore renforcée de la logique d’exécution des systèmes logiciels. En outre, les modèles de la série M2 participent à des scénarios comme le RL, avec l’entraînement de M2.7, permettant une auto-itération du modèle.

2)Zhipu : GLM-5 introduit DSA et une architecture « Slime » développée en interne, permettant d’accomplir de manière autonome des tâches d’Agent de planification et d’exécution à long terme, de reconstruction du backend et de débogage approfondi de bout en bout, avec une intervention humaine minime. Les performances en appel d’outils et en exécution de tâches multi-étapes (MCP-Atlas 67,8 %), ainsi qu’en recherche connectée et compréhension de l’information (Browse Comp 89,7 %), sont proches voire supérieures à celles des modèles leaders à l’étranger.

3)Kimi : Kimi 2.5 a introduit des capacités visuelles pour décomposer automatiquement la logique d’interaction, reproduire le code, et a lancé un nouveau mode de grappes d’Agents. Dans les batteries de tests d’applications d’agents telles que HLE-Full, BrowseComp et DeepSearchQA, il obtient des scores comparables à ceux de GPT-5.2, Claude 4.5 Opus et Gemini 3 Pro. Moonshoot adopte une stratégie de baisse de prix : le prix de l’API est inférieur de plus de 30 % par rapport à la tarification de K2 Turbo.

4)Xiaomi : le Xiaomi MiMo-V2-Pro, dans des séries de tests mesurant la capacité d’appel des Agents, comme ClawEval et t2-bench, est proche voire au-dessus de certains modèles leaders étrangers. Sa version de test interne précoce, sous le code anonyme Hunter Alpha, a été mise en ligne sur OpenRouter ; pendant la période de mise en ligne, il est monté plusieurs jours en tête du classement quotidien des volumes d’appels. Nous sommes optimistes sur le fait que la base des grands modèles permette à Xiaomi d’étendre son écosystème « personnes-voitures-maison » et de réaliser un saut des capacités IA.

▍ Perspectives DeepSeek : poursuivre la voie du excellent rapport coût-efficacité, perfectionner les capacités de longs textes, de code, d’Agent et de multimodalité.

DeepSeek V3.2 publié en janvier 26 adopte une architecture d’attention clairsemée (DSA) + experts mélangés (MoE), permettant d’améliorer l’efficacité et de réduire les coûts pour l’entraînement et l’inférence. La tarification des tokens d’entrée/sortie diminue respectivement de 60 %/75 %. Dans le même temps, les scores de code et de capacités BenchMark multi-Agents progressent nettement. En combinant la direction d’évolution des modèles DeepSeek et l’article sur le module Engram auquel Liang Wenfeng participe en tant que signataire, nous pensons que de nouveaux modèles comme DeepSeek V4.0 pourraient intégrer Engram dans l’architecture déjà mature DSA+MoE. En stockant par niveaux les informations clés et fréquemment utilisées, cela permettrait une baisse exponentielle de la quantité de calcul de la couche d’attention dans l’architecture Transformer, afin de traiter des contextes ultra longs. Tout en améliorant l’efficacité du modèle, cela perfectionne les capacités de code et d’Agent et comble les lacunes en multimodalité.

▍ Facteurs de risque :

Le développement des technologies IA clés et l’expansion des applications ne répondent pas aux attentes ; la réduction des coûts en puissance de calcul ne répond pas aux attentes ; une utilisation inappropriée de l’IA entraînant des impacts sociaux graves ; risques de sécurité des données ; risques de sécurité de l’information ; intensification de la concurrence dans l’industrie.

▍ Stratégie d’investissement : nous recommandons de prêter attention aux trois axes d’investissement suivants.

1)Fabricants de modèles : le nouveau modèle de génération de DeepSeek pourrait s’associer à d’autres modèles domestiques, afin d’accélérer le passage de l’IA chinoise vers le monde. Dans le même temps, la formation des modèles permet d’aller encore plus loin dans la réduction des coûts : des tokens moins chers stimulent globalement l’augmentation du volume d’appels des API de grands modèles à l’échelle mondiale.

2)Applications IA : l’égalité d’accès aux modèles contribue à atténuer l’anxiété du marché provoquée par le récit de la contradiction entre les modèles et les applications ; cela aide au déploiement d’Agents IA dans des milliers d’industries, et est favorable aux sociétés d’applications IA dotées de barrières ;

3)Infrastructures IA : la réduction des coûts entraîne une hausse de l’utilisation, ce qui profite à l’AI Infra ; l’AI Infra domestique et les modèles domestiques avancent dans la même direction.

(Source : First Financial Daily)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler