CITIC Securities : DeepSeek, le nouveau modèle de prochaine génération, devrait poursuivre la voie des modèles open source à haute performance et bon rapport qualité-prix

robot
Création du résumé en cours

Citons证券的研究报告指出 : depuis 2026, les fournisseurs chinois de modèles de grande taille se concentrent sur l’amélioration des capacités Agent et de code, et publient à tour de rôle de nouveaux modèles. Nous pensons que le prochain modèle de nouvelle génération de DeepSeek, qui devrait bientôt être lancé, est susceptible de poursuivre la voie des modèles open source offrant un excellent rapport coût-efficacité, tout en renforçant ses capacités de mémoire et de traitement de contextes extrêmement longs. En affinant les capacités de code et d’Agent, tout en comblant également les lacunes en multimodalité, il apportera de nouvelles opportunités d’investissement dans les axes des fabricants de modèles, des applications IA et des infrastructures IA de base.

1、Fabricants de modèles : le nouveau modèle de DeepSeek est susceptible de coopérer avec d’autres modèles chinois, afin de propulser l’accélération de l’IA chinoise vers le monde, tout en faisant progresser l’entraînement des modèles, réduisant encore davantage les coûts ; des tokens plus économiques stimulent globalement une augmentation du volume d’appels à l’API de modèles de grande taille à l’échelle mondiale. 2、Applications IA : l’égalisation des capacités des modèles aide à atténuer l’anxiété du marché face au récit contradictoire entre les modèles et les applications, soutient le déploiement d’Agents IA dans tous les secteurs, et favorise les sociétés d’applications IA bénéficiant de barrières ; 3、Infrastructures IA : la réduction des coûts entraîne une hausse des volumes d’utilisation, ce qui fait bénéficier l’AI Infra, et les infrastructures IA chinoises avancent de concert avec les modèles chinois.

Texte intégral ci-dessous

Informatique|DeepSeek : perspectives pour la prochaine génération de modèles

Depuis 2026, les fournisseurs chinois de modèles de grande taille se concentrent sur l’amélioration des capacités Agent et de code, et publient à tour de rôle de nouveaux modèles. Nous pensons que le prochain modèle de nouvelle génération de DeepSeek, qui devrait bientôt être lancé, est susceptible de poursuivre la voie des modèles open source offrant un excellent rapport coût-efficacité, tout en renforçant ses capacités de mémoire et de traitement de contextes extrêmement longs. En affinant les capacités de code et d’Agent, tout en comblant également les lacunes en multimodalité, il apportera de nouvelles opportunités d’investissement dans les axes des fabricants de modèles, des applications IA et des infrastructures IA de base.

Code, Agent et multimodalité native : la direction de mise à niveau des modèles de grande taille à l’échelle mondiale.

Dans le domaine de la programmation IA, la montée en niveau des cadres d’entraînement, l’adoption de dépôts de code complets et de trajectoires d’ingénierie comme données d’entraînement, ainsi que l’introduction de chaînes de pensée plus profondes avec exécution multi-étapes et auto-réparation, ont permis de faire passer le Coding IA d’outils de complétion de code à des agents intelligents autonomes au niveau du projet. Harness Engineer pourrait amener les techniciens à évoluer, passant du statut d’ingénieurs en code à celui de gestionnaires d’agents permettant à l’IA de déployer son efficacité maximale. Dans le domaine des grappes multi-Agents, le produit de niveau “phénoménal” OpenClaw démontre pleinement le potentiel des systèmes multi-Agents ; des sociétés nationales telles que Zhipu, MiniMax, Tencent, Kimi, etc., ont toutes lancé des produits “type homard”, libérant la productivité des “employés numériques”. Dans le domaine de la multimodalité native, l’architecture de multimodalité native est devenue une direction dominante ; l’encodage mixte avec embedding a rapidement franchi des étapes décisives, mais les modèles nationaux doivent encore progresser sur des maillons clés tels que l’interaction temps réel audio/vidéo et le raisonnement continu transmodal.

▍ Modèles de grande taille chinois : itérations et mises à niveau intensives, percées continues en capacités.

1)MiniMax : la capacité de code est encore améliorée ; au test M2.7 SWE-Pro, le score est de 56,22 %, dépassant Gemini 3.1 Pro ; dans le scénario de livraison de projet complet de bout en bout VIBE-Pro, le score atteint 55,6 %, au niveau de Claude Opus 4.6, et la compréhension des logiques d’exécution des systèmes logiciels est encore renforcée. Par ailleurs, les modèles de la série M2 participent à des scénarios comme RL dans le processus d’entraînement de M2.7, permettant une auto-itération du modèle.

2)Zhipu : GLM-5 introduit DSA et une architecture “Slime” développée en interne ; elle peut accomplir de manière autonome des tâches d’ingénierie système telles que la planification et l’exécution à long terme d’Agents, la reconstruction du backend et le débogage approfondi, avec très peu d’interventions manuelles. Les capacités liées à l’appel d’outils et à l’exécution de tâches multi-étapes (MCP-Atlas 67,8 %), à la recherche en ligne et à la compréhension de l’information (Browse Comp 89,7 %) sont proches, voire dépassent, le niveau des modèles leaders à l’étranger.

3)Kimi : Kimi 2.5 introduit des capacités visuelles pour décomposer automatiquement la logique d’interaction, reproduire le code ; son nouveau mode de grappe d’Agents. Dans des ensembles de tests d’applications d’agents intelligents comme HLE-Full, BrowseComp, DeepSearchQA, les scores obtenus permettent d’effectuer une comparaison avec GPT-5.2, Claude 4.5 Opus et Gemini 3 Pro. Moonshoot utilise une stratégie de baisse de prix, avec un prix API réduit de plus de 30 % par rapport au tarif de K2 Turbo.

4)Xiaomi : Xiaomi MiMo-V2-Pro, dans des tests mesurant les capacités d’appel des modèles Agents comme ClawEval, t2-bench, se situe à proximité voire au-dessus de certains modèles phares étrangers de premier plan ; ses versions internes de test en amont ont été mises en ligne via un code anonyme de Hunter Alpha sur OpenRouter, et pendant la période de lancement, il a atteint le sommet du classement quotidien des volumes d’appels à plusieurs reprises sur plusieurs jours. Nous pensom que la couche de base des grands modèles permet à Xiaomi d’activer l’ensemble de l’écosystème “personnes-voitures-maison”, afin d’atteindre un saut en avant des capacités d’IA.

▍ Perspectives de DeepSeek : poursuivre la voie du excellent rapport coût-efficacité, perfectionner les capacités de longs textes, de code, d’Agents et de multimodalité.

DeepSeek V3.2, publié en janvier 26, adopte une architecture DSA (attention clairsemée) + MoE (experts de manière hybride), afin d’améliorer l’efficacité et de réduire les coûts de l’entraînement et de l’inférence. Le prix des tokens en entrée et en sortie diminue respectivement de 60 % / 75 %, et les scores dans les Benchmarks des capacités de code et multi-Agents progressent nettement. En combinant les directions d’évolution des modèles DeepSeek et le papier sur le module Engram auquel Liang Wenfeng a participé en tant que signataire, nous pensons que de nouveaux modèles de nouvelle génération tels que DeepSeek V4.0 pourraient intégrer Engram dans l’architecture déjà mature DSA + MoE. Grâce à un stockage hiérarchisé des informations clés et fréquemment utilisées, il est possible de réduire de manière exponentielle la quantité de calcul de la couche d’attention dans l’architecture Transformer, ce qui permet ensuite de traiter des contextes extrêmement longs. Tout en améliorant l’efficacité du modèle, cela affine aussi les capacités de code et d’Agent et comble les lacunes en multimodalité.

▍ Facteurs de risque :

Le développement de technologies IA fondamentales et l’expansion des applications ne répondent pas aux attentes ; la réduction des coûts de calcul ne répond pas aux attentes ; l’IA utilisée à mauvais escient provoque de graves impacts sociaux ; risques de sécurité des données ; risques de sécurité de l’information ; intensification de la concurrence dans le secteur.

▍ Stratégie d’investissement : nous recommandons de prêter attention aux trois axes d’investissement suivants.

1)Fabricants de modèles : le nouveau modèle de DeepSeek est susceptible de coopérer avec d’autres modèles chinois, afin de propulser l’accélération de l’IA chinoise vers le monde, tout en faisant progresser l’entraînement des modèles, réduisant encore davantage les coûts ; des tokens plus économiques stimulent globalement une augmentation du volume d’appels à l’API de modèles de grande taille à l’échelle mondiale.

2)Applications IA : l’égalisation des capacités des modèles aide à atténuer l’anxiété du marché face au récit contradictoire entre les modèles et les applications, soutient le déploiement d’Agents IA dans tous les secteurs, et favorise les sociétés d’applications IA bénéficiant de barrières ;

3)Infrastructures IA : la réduction des coûts entraîne une hausse des volumes d’utilisation, ce qui fait bénéficier l’AI Infra, et les infrastructures IA chinoises avancent de concert avec les modèles chinois.

(Source : Première Finance)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler