CITIC Securities : DeepSeek, le nouveau modèle de prochaine génération, devrait poursuivre la voie des modèles open source à haute performance et bon rapport qualité-prix

robot
Création du résumé en cours

Un rapport de recherche de CITIC Securities indique qu’à partir de 2026, les fabricants de modèles de grande taille nationaux se concentrent sur l’amélioration des capacités d’Agent et du code, et publient chacun de nouveaux modèles. Le prochain modèle de nouvelle génération de DeepSeek, qui devrait être publié, devrait permettre de prolonger la voie des modèles open source à bon rapport qualité-prix ; en termes de capacités, il devrait renforcer la fonction de mémoire et la gestion de contextes extrêmement longs, tout en affinant les capacités de code et d’Agent, et en comblant en même temps les lacunes en multimodal, apportant ainsi de nouvelles opportunités d’investissement dans les directions des fabricants de modèles, des applications d’IA et des infrastructures fondamentales d’IA.

1、Fabricant de modèles : le nouveau modèle de nouvelle génération de DeepSeek est susceptible de s’associer avec d’autres modèles nationaux pour accélérer l’essor de l’IA chinoise vers le monde ; en même temps, l’entraînement des modèles permet de progresser davantage dans la réduction des coûts, et des tokens moins chers entraînent globalement une hausse du volume d’appels des API de modèles de grande taille à l’échelle mondiale. 2、Applications d’IA : l’égalité d’accès aux modèles contribue à apaiser les inquiétudes du marché liées aux récits de contradiction entre les modèles et les applications, aide au déploiement d’Agents d’IA dans tous les secteurs, et est favorable aux sociétés d’applications d’IA disposant de barrières ; 3、Infrastructures d’IA : la réduction des coûts entraîne une croissance de l’usage, ce qui profite à AI Infra ; les infrastructures d’IA nationales et les modèles nationaux vont dans le même sens.

Le texte intégral est le suivant

Informatique|DeepSeek : perspectives pour le modèle de prochaine génération

À partir de 2026, les fabricants de modèles de grande taille nationaux se concentrent sur l’amélioration des capacités d’Agent et du code, et publient chacun de nouveaux modèles. Nous pensons que le prochain modèle de nouvelle génération de DeepSeek, qui devrait être publié, est susceptible de prolonger la voie des modèles open source à bon rapport qualité-prix ; en termes de capacités, il devrait renforcer la fonction de mémoire et la gestion de contextes extrêmement longs, tout en affinant les capacités de code et d’Agent, et en comblant en même temps les lacunes en multimodal, apportant ainsi de nouvelles opportunités d’investissement dans les directions des fabricants de modèles, des applications d’IA et des infrastructures fondamentales d’IA.

Code, Agent, multimodal natif : la direction d’évolution des modèles de grande taille à l’échelle mondiale.

Dans le domaine de la programmation par IA, la mise à niveau des frameworks d’entraînement, l’adoption de référentiels de code complets et de traces d’ingénierie comme données d’entraînement, ainsi que l’introduction d’une chaîne de pensée plus profonde incluant l’exécution multi-étapes et l’autocorrection ont fait évoluer le Coding par IA : d’un simple outil de complétion de code vers des agents autonomes au niveau du projet. Harness Engineer pourrait amener les techniciens à passer du rôle d’ingénieur en code à celui de gestionnaire d’Agent permettant à l’IA de déployer son efficacité maximale. Dans le domaine des clusters d’agents multi-Agent, le produit de niveau phénomène OpenClaw illustre pleinement le potentiel des systèmes multi-Agent ; des fabricants nationaux comme Zhipu, MiniMax, Tencent, Kimi, etc. ont tous lancé des produits « type écrevisse de mer », libérant la productivité des employés numériques. Dans le domaine du multimodal natif, l’architecture multimodale native est devenue une direction dominante ; l’encodage par emboîtement hybride progresse rapidement, mais les modèles nationaux doivent encore faire des percées dans des maillons clés comme les interactions temps réel audio/vidéo et le raisonnement continu intermodal.

▍ Modèles de grande taille nationaux : itérations denses et amélioration continue des capacités.

1)MiniMax : les capacités de code sont encore améliorées ; au test M2.7 SWE-Pro, le score atteint 56,22 %, dépassant Gemini 3.1 Pro ; dans le scénario de livraison de projet complet end-to-end VIBE-Pro, le score est de 55,6 %, se rapprochant de Claude Opus 4.6, et la compréhension de la logique d’exécution des systèmes logiciels est encore renforcée. Par ailleurs, les modèles de la série M2 participent à des scénarios comme RL, et au processus d’entraînement de M2.7, le modèle s’auto-itère.

2)Zhipu : GLM-5 introduit DSA et une architecture maison appelée « Slime » ; elle permet d’achever de manière autonome une planification et une exécution long terme de type Agentic, ainsi que des tâches d’ingénierie système comme la reconstruction du backend et le débogage profond, avec très peu d’intervention humaine. Les capacités de l’appel d’outils et de l’exécution de tâches multi-étapes (MCP-Atlas 67,8 %), la recherche en réseau et la compréhension de l’information (Browse Comp 89,7 %) sont proches voire supérieures au niveau des modèles leaders à l’étranger.

3)Kimi : Kimi 2.5 introduit des capacités visuelles permettant de décomposer automatiquement la logique d’interaction, de reproduire le code, et a lancé un nouveau mode de cluster d’Agents. Dans les jeux de tests d’applications d’agents intelligents comme HLE-Full, BrowseComp, DeepSearchQA, il obtient des scores permettant l’alignement avec GPT-5.2, Claude 4.5 Opus et Gemini 3 Pro. Moonshoot adopte une stratégie de baisse des prix ; le prix de l’API par rapport à la tarification de K2 Turbo baisse de plus de 30 %.

4)Xiaomi : Xiaomi MiMo-V2-Pro, dans des tests mesurant les capacités d’appel d’Agent des modèles tels que ClawEval, t2-bench, se rapproche voire dépasse certains modèles de tête outre-mer. Sa version interne de test initiale, sous le code anonyme Hunter Alpha, a été mise en ligne sur OpenRouter ; pendant la période de mise en ligne, plusieurs jours consécutifs ont permis de se classer en tête du classement quotidien du volume d’appels. Nous sommes optimistes sur le fait que la base de grands modèles permet à Xiaomi d’atteindre l’ensemble de l’écosystème « véhicules et maison » (personnes, voitures et maison) et de faire bondir les capacités d’IA.

▍ Perspectives de DeepSeek : prolonger la voie à bon rapport qualité-prix, affiner les capacités de longs textes, de code, d’Agent et de multimodal.

DeepSeek a publié en janvier 26 le DeepSeek V3.2, qui adopte une architecture de type attention clairsemée (DSA) + experts de mélange (MoE), permettant d’améliorer l’efficacité et de réduire les coûts pour l’entraînement et l’inférence. Le prix des tokens d’entrée et de sortie baisse respectivement de 60 %/75 % ; dans le même temps, les scores des capacités de code et de BenchMark des capacités multi-Agents augmentent nettement. En combinant la direction d’évolution des modèles DeepSeek et l’article du module Engram auquel Liang Wenfeng a participé en tant que signataire, nous pensons que de nouveaux modèles de prochaine génération comme DeepSeek V4.0 pourraient intégrer Engram dans l’architecture mature DSA+MoE déjà existante ; en utilisant un stockage hiérarchisé pour les informations clés fréquemment utilisées, cela permettrait une baisse exponentielle de la charge de calcul des couches d’attention dans l’architecture Transformer, et ainsi une gestion de contextes extrêmement longs. Tout en améliorant l’efficacité du modèle, cela affinerait les capacités de code et d’Agent, et comblerait les lacunes en multimodal.

▍ Facteurs de risque :

Le développement des technologies cœur de l’IA et l’expansion des applications ne répondent pas aux attentes ; la réduction des coûts du calcul ne répond pas aux attentes ; une utilisation inappropriée de l’IA cause de graves impacts sociaux ; risques de sécurité des données ; risques de sécurité de l’information ; intensification de la concurrence dans l’industrie.

▍ Stratégie d’investissement : nous recommandons de se concentrer sur les trois principales lignes suivantes.

1)Fabricant de modèles : le nouveau modèle de nouvelle génération de DeepSeek est susceptible de s’associer avec d’autres modèles nationaux pour accélérer l’essor de l’IA chinoise vers le monde ; en même temps, l’entraînement des modèles permet de progresser davantage dans la réduction des coûts, et des tokens moins chers entraînent globalement une hausse du volume d’appels des API de modèles de grande taille à l’échelle mondiale.

2)Applications d’IA : l’égalité d’accès aux modèles contribue à apaiser les inquiétudes du marché liées aux récits de contradiction entre les modèles et les applications, aide au déploiement d’Agents d’IA dans tous les secteurs, et est favorable aux sociétés d’applications d’IA disposant de barrières ;

3)Infrastructures d’IA : la réduction des coûts entraîne une croissance de l’usage, ce qui profite à AI Infra ; les infrastructures d’IA nationales et les modèles nationaux vont dans le même sens.

(Source : Première Finance)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler