CITIC Securities: Se espera que el próximo modelo de próxima generación de DeepSeek continúe con la estrategia de modelos de código abierto de alta relación rendimiento-precio

robot
Generación de resúmenes en curso

CITIC Securities publicó en un informe de investigación que, desde 2026, los fabricantes de modelos grandes nacionales se han centrado en la actualización de la capacidad de Agent y de código, y compiten por publicar nuevos modelos. Se espera que el próximo nuevo modelo de DeepSeek continúe la ruta de modelos abiertos de alta rentabilidad, logrando capacidades como una función de memoria más potente y el procesamiento de contextos ultralargos; al perfeccionar las capacidades de código y Agent, y al mismo tiempo subsanar sus deficiencias en multimodalidad, brindará nuevas oportunidades de inversión en las direcciones de fabricante del modelo, aplicaciones de IA e infraestructura base de IA.

1、Fabricante del modelo: Se espera que el nuevo modelo de la próxima generación de DeepSeek coopere con otros modelos nacionales, impulsando que la IA de China acelere su camino hacia el mundo; al mismo tiempo, la formación del modelo avanza un paso más para reducir costos, y los tokens más baratos impulsan en general un aumento en la cantidad total de llamadas a la API de modelos grandes en todo el mundo. 2、Aplicaciones de IA: la igualdad de modelos ayuda a aliviar la ansiedad del mercado causada por el relato de contradicciones entre modelos y aplicaciones, favoreciendo la implementación de AI Agent en miles de industrias, beneficiando a las empresas de aplicaciones de IA con barreras; 3、Infraestructura base de IA: la reducción de costos trae crecimiento del uso, haciendo que AI Infra se beneficie; la infraestructura de IA nacional y los modelos nacionales van en direcciones que se encuentran.

Lo siguiente es el texto completo

Informática|DeepSeek: Perspectivas del modelo de la próxima generación

Desde 2026, los fabricantes de modelos grandes nacionales se han centrado en la actualización de la capacidad de Agent y de código, y compiten por publicar nuevos modelos. Consideramos que el próximo modelo de la próxima generación de DeepSeek podría continuar la ruta de modelos abiertos de alta rentabilidad; en términos de capacidad, lograría funciones de memoria más potentes y el procesamiento de contextos ultralargos; al perfeccionar las capacidades de código y Agent, y al mismo tiempo compensar las carencias en multimodalidad, aportará nuevas oportunidades de inversión en las direcciones de fabricante del modelo, aplicaciones de IA e infraestructura base de IA.

Código, Agent y multimodalidad nativa: la dirección de actualización de los modelos grandes globales.

En el campo de la programación con IA, la mejora de los marcos de entrenamiento, el uso de repositorios de código completos y trayectorias de ingeniería como datos de entrenamiento, y la introducción de cadenas de pensamiento más profundas con ejecución de múltiples pasos y autorreparación, han propiciado que la codificación con IA pase de herramientas de completar código a agentes inteligentes a nivel de proyecto. Se espera que Harness Engineer permita que el personal técnico pase de ser ingeniero de código a convertirse en un administrador de agentes que haga que la IA alcance su máximo rendimiento. En el ámbito de los clústeres de múltiples agentes, el producto a nivel fenomenal OpenClaw ha demostrado plenamente el potencial de los sistemas de múltiples agentes; empresas nacionales como Zhipu, MiniMax, Tencent, Kimi, entre otras, también lanzaron productos “tipo langosta”, liberando la productividad de los empleados digitales. En el ámbito de la multimodalidad nativa, la arquitectura de multimodalidad nativa ya se ha convertido en una dirección principal; la codificación de incrustaciones mixtas ha logrado avances rápidos, pero los modelos nacionales todavía necesitan superar retos clave como la interacción en tiempo real de audio y video, y el razonamiento continuo entre modalidades.

▍ Modelos grandes nacionales: iteración densa y actualizaciones continuas, con avances de capacidad sostenidos.

1)MiniMax: la capacidad de código se mejora aún más; en la prueba M2.7 SWE-Pro obtuvo 56.22%, superando a Gemini 3.1 Pro; en la prueba VIBE-Pro para escenarios de entrega de proyectos completos de extremo a extremo, obtuvo 55.6%, a la par de Claude Opus 4.6, mejorando aún más la comprensión de la lógica operativa de los sistemas de software. Además, los modelos de la serie M2 participan en procesos de entrenamiento M2.7 en escenarios como RL, realizando iteración automática del modelo.

2)Zhipu: GLM-5 introduce DSA e incorpora la arquitectura “Slime” desarrollada por cuenta propia; puede, con una intervención humana mínima, completar de forma autónoma tareas de ingeniería de sistemas como la planificación y ejecución de largo alcance agentic, la reconstrucción del backend y la depuración profunda. En capacidades como el uso de herramientas y la ejecución de tareas de múltiples pasos (MCP-Atlas 67.8%), la búsqueda en red y la comprensión de información (Browse Comp 89.7%), se acerca e incluso supera el nivel de modelos líderes en el exterior.

3)Kimi: Kimi 2.5 introdujo capacidades visuales para descomponer automáticamente la lógica de interacción, reproducir código; y lanzó un nuevo modo de clúster de agentes. En conjuntos de pruebas de aplicaciones de agentes inteligentes como HLE-Full, BrowseComp, DeepSearchQA, obtuvo puntuaciones comparables a GPT-5.2, Claude 4.5 Opus y Gemini 3 Pro. Moonshoot adopta una estrategia de reducción de precios; el precio de la API se reduce en más de 30% frente a la cotización de K2 Turbo.

4)Xiaomi: Xiaomi MiMo-V2-Pro, en conjuntos de pruebas como ClawEval y t2-bench que miden la capacidad de los modelos para llamar agentes, está cerca e incluso lidera a algunos modelos líderes internacionales. Su versión interna temprana se lanzó en OpenRouter con un código anónimo de Hunter Alpha; durante el periodo de lanzamiento, en varios días alcanzó la cima en el ranking diario de volumen de llamadas. Consideramos que la base de modelos grandes habilitará a Xiaomi en todo el ecosistema de “personas-automóviles-hogar”, logrando un salto en las capacidades de IA.

▍ Perspectivas de DeepSeek: continuidad de la ruta de alta rentabilidad, perfeccionando capacidades de texto largo, código, Agent y multimodalidad.

DeepSeek, en DeepSeek V3.2 publicado en enero de 26, adopta una arquitectura de atención dispersa (DSA) + expertos mixtos (MoE), logrando eficiencia de entrenamiento y de inferencia con reducción de costos; la fijación de precios de tokens de entrada/salida disminuye 60%/75% respectivamente. Al mismo tiempo, las puntuaciones en BenchMark de capacidades de código y de múltiples Agent mejoran significativamente. Combinando la dirección de evolución de los modelos de DeepSeek y el artículo del módulo Engram en el que participa Liang Wenfeng como firmante, consideramos que nuevos modelos como DeepSeek V4.0 podrían integrar Engram en la arquitectura ya madura DSA+MoE; al implementar almacenamiento jerárquico de información clave y de uso común, se lograría una reducción exponencial del cómputo de las capas de atención dentro de la arquitectura Transformer, y así habilitar el procesamiento de contextos ultralargos. Al mejorar la eficiencia del modelo, también se perfeccionan las capacidades de código y Agent, y se cubren las debilidades en multimodalidad.

▍ Factores de riesgo:

El desarrollo de tecnologías centrales de IA y la expansión de aplicaciones no alcanzan lo esperado; la reducción de costos en cómputo no alcanza lo esperado; el uso inadecuado de la IA causa un impacto social grave; riesgo de seguridad de datos; riesgo de seguridad de la información; intensificación de la competencia en la industria.

▍ Estrategia de inversión: recomendamos prestar atención a las siguientes tres líneas principales.

1)Fabricante del modelo: Se espera que el nuevo modelo de la próxima generación de DeepSeek coopere con otros modelos nacionales, impulsando que la IA de China acelere su camino hacia el mundo; al mismo tiempo, el entrenamiento del modelo avanza un paso más para reducir costos, y los tokens más baratos impulsan en general el aumento del volumen total de llamadas a la API de modelos grandes en todo el mundo.

2)Aplicaciones de IA: la igualdad de modelos ayuda a aliviar la ansiedad del mercado causada por el relato de contradicciones entre modelos y aplicaciones, apoyando la implementación de AI Agent en miles de industrias, lo que beneficia a las empresas de aplicaciones de IA con barreras;

3)Infraestructura base de IA: la reducción de costos trae crecimiento del uso, haciendo que AI Infra se beneficie; la infraestructura de IA nacional y los modelos nacionales van en direcciones que se encuentran.

(Fuente: Primera Finanzas)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado