CITIC Securities: Se espera que el próximo modelo de próxima generación de DeepSeek continúe con la estrategia de modelos de código abierto de alta relación rendimiento-precio

robot
Generación de resúmenes en curso

El informe de investigación de la firma de valores CITIC Securities señala que desde 2026, los proveedores nacionales de modelos fundacionales se han centrado en la mejora de la capacidad de Agent y de código, y compiten por lanzar nuevos modelos. Se espera que el próximo modelo de nueva generación de DeepSeek, que está por lanzarse, continúe la ruta de modelos de código abierto con alta relación calidad-precio; en términos de capacidades, lograría funciones de memoria más potentes y el procesamiento de contextos ultra largos, y, al perfeccionar las capacidades de código y Agent, al mismo tiempo subsanaría las deficiencias en multimodalidad, generando nuevas oportunidades de inversión en las direcciones de el fabricante del modelo, aplicaciones de IA e infraestructura base de IA.

1)Fabricante del modelo: se espera que el nuevo modelo de la nueva generación de DeepSeek colabore con otros modelos nacionales, impulsando que la IA de China acelere su camino hacia el mundo. Al mismo tiempo, el entrenamiento del modelo avanza un paso más hacia la reducción de costos; los tokens más baratos impulsan en general el aumento del volumen total de llamadas a la API de modelos grandes en todo el mundo. 2)Aplicaciones de IA: la democratización de los modelos ayuda a aliviar la ansiedad del mercado ante los relatos sobre la contradicción entre modelos y aplicaciones, impulsa la implementación de AI Agent en miles de industrias y favorece a las empresas de aplicaciones de IA que cuentan con barreras. 3)Infraestructura base de IA: la reducción de costos trae un aumento del volumen de uso, por lo que AI Infra se beneficia; la infraestructura base de IA nacional y los modelos nacionales van en la misma dirección.

El texto completo es el siguiente

Informática|DeepSeek: Perspectivas del modelo de próxima generación

Desde 2026, los proveedores nacionales de modelos fundacionales se han centrado en la mejora de la capacidad de Agent y de código, y compiten por lanzar nuevos modelos. Creemos que el próximo modelo de nueva generación de DeepSeek, que está por lanzarse, tiene la posibilidad de continuar la ruta de modelos de código abierto con alta relación calidad-precio; en términos de capacidades, lograría funciones de memoria más potentes y el manejo de contextos ultra largos, y, al perfeccionar las capacidades de código y Agent, al mismo tiempo subsanaría las deficiencias en multimodalidad, generando nuevas oportunidades de inversión en las direcciones de el fabricante del modelo, aplicaciones de IA e infraestructura base de IA.

Código, Agent y multimodalidad nativa: la dirección de actualización de los modelos grandes a nivel global.

En el ámbito de la programación con IA, las mejoras en los marcos de entrenamiento, la adopción de repositorios de código completos y trayectorias de ingeniería como datos de entrenamiento, y la introducción de cadenas de pensamiento más profundas con ejecución en múltiples pasos y autocorrección han impulsado que la programación con IA pase de ser una herramienta para completar código a convertirse en agentes inteligentes a nivel de proyecto. Se espera que Harness Engineer permita que el personal técnico pase de ser ingenieros de código a convertirse en gestores de agentes que hacen que la IA rinda con la máxima eficacia. En el ámbito de los clústeres de múltiples Agents, el producto a nivel de fenómeno OpenClaw muestra plenamente el potencial de los sistemas de múltiples Agents. Empresas nacionales como Zhipu, MiniMax, Tencent, Kimi, etc., han lanzado productos “tipo langosta”, liberando la productividad de los empleados digitales. En el ámbito de la multimodalidad nativa, la arquitectura de multimodalidad nativa ya se ha convertido en la dirección dominante. La codificación con incrustaciones híbridas ha logrado avances rápidos. Sin embargo, en etapas clave como la interacción en tiempo real de audio y video y el razonamiento continuo entre modalidades, los modelos nacionales todavía necesitan avances urgentes.

▍ Modelos de gran tamaño nacionales: iteraciones y actualizaciones densas; avances continuos en capacidades.

1)MiniMax: la capacidad de código se actualiza aún más; en la prueba M2.7 SWE-Pro obtuvo una puntuación del 56.22%, superando a Gemini 3.1 Pro; en la prueba VIBE-Pro, en el escenario de entrega de proyectos completos de extremo a extremo, obtuvo el 55.6%, a la par con Claude Opus 4.6. La comprensión de la lógica operativa de los sistemas de software se reforzó aún más. Al mismo tiempo, los modelos de la serie M2 participaron en escenarios como RL en el proceso de entrenamiento de M2.7, logrando que el modelo realice autoiteraciones.

2)Zhipu: GLM-5 introduce DSA e integra de forma propia la arquitectura “Slime”, que permite completar de manera autónoma tareas de ingeniería de sistemas, como la planificación y ejecución de largo plazo mediante agentes (Agentic), la reconstrucción del backend y el ajuste profundo, con muy poca intervención manual. En capacidades de llamadas a herramientas y ejecución de tareas de múltiples pasos (MCP-Atlas 67.8%), rastreo y búsqueda en red e interpretación de información (Browse Comp 89.7%), se acerca e incluso supera el nivel de modelos líderes en el extranjero.

3)Kimi: Kimi 2.5 introdujo capacidades visuales para descomponer automáticamente la lógica de interacción, y para reproducir código. En su modo de clúster de agentes recién lanzado, en los conjuntos de pruebas de aplicaciones de agentes inteligentes como HLE-Full, BrowseComp y DeepSearchQA, obtuvo puntuaciones para compararse con GPT-5.2, Claude 4.5 Opus y Gemini 3 Pro. Moonshoot adoptó una estrategia de reducción de precios, y el precio de la API disminuyó en más del 30% frente a la fijación de precios de K2 Turbo.

4)Xiaomi: Xiaomi MiMo-V2-Pro, en conjuntos de pruebas como ClawEval, t2-bench, etc., al medir la capacidad de los modelos para llamar a agentes, se acerca e incluso supera a algunas partes de ciertos modelos líderes en el extranjero. Su versión temprana de prueba interna con un nombre en clave anónimo, Hunter Alpha, se lanzó en OpenRouter; durante el periodo de lanzamiento, durante varios días llegó a la cima del ranking diario de volumen de llamadas. Vemos con buenos ojos que la base de modelos de gran tamaño habilite a Xiaomi en todo el ecosistema de personas, autos y hogar, logrando un salto en las capacidades de IA.

▍ Perspectivas de DeepSeek: continuar la ruta de alta relación calidad-precio; perfeccionar capacidades de texto largo, código, Agent y multimodalidad.

DeepSeek, publicado en enero de 26, adoptó en DeepSeek V3.2 una arquitectura de atención dispersa (DSA) + expertos mixtos (MoE) para lograr una mejora de la eficiencia y reducción de costos en el entrenamiento y la inferencia. El precio de los tokens de entrada y salida disminuyó en 60%/75% respectivamente. Al mismo tiempo, las puntuaciones en los Benchmarks de capacidades de código y de múltiples Agents mejoraron de manera significativa. En combinación con las direcciones de evolución del modelo DeepSeek y con el artículo del módulo Engram en el que participó Liang Wenfeng, creemos que nuevos modelos como DeepSeek V4.0 podrían integrar Engram en una arquitectura ya madura DSA+MoE. Mediante el almacenamiento por capas de información clave de uso común, se podría lograr una reducción exponencial del cálculo de la capa de atención dentro de la arquitectura Transformer, y con ello habilitar el procesamiento de contextos ultra largos. Al mejorar la eficiencia del modelo, se perfeccionan las capacidades de código y Agent, y se subsanan las deficiencias en multimodalidad.

▍ Factores de riesgo:

El desarrollo de la tecnología central de IA y la expansión de aplicaciones no cumplen las expectativas; la reducción de costos de la capacidad de cómputo no cumple las expectativas; el uso indebido de la IA provoca graves impactos sociales; riesgos de seguridad de datos; riesgos de seguridad de la información; se intensifica la competencia en la industria.

▍ Estrategia de inversión: recomendamos prestar atención a las siguientes tres líneas principales.

1)Fabricante del modelo: se espera que el nuevo modelo de la nueva generación de DeepSeek colabore con otros modelos nacionales, impulsando que la IA de China acelere su camino hacia el mundo. Al mismo tiempo, el entrenamiento del modelo avanza un paso más hacia la reducción de costos; los tokens más baratos impulsan en general el aumento del volumen total de llamadas a la API de modelos grandes en todo el mundo.

2)Aplicaciones de IA: la democratización de los modelos ayuda a aliviar la ansiedad del mercado ante los relatos sobre la contradicción entre modelos y aplicaciones, impulsa la implementación de AI Agent en miles de industrias y favorece a las empresas de aplicaciones de IA que cuentan con barreras;

3)Infraestructura base de IA: la reducción de costos trae un aumento del volumen de uso, por lo que AI Infra se beneficia; la infraestructura base de IA nacional y los modelos nacionales van en la misma dirección.

(Fuente: Primera Finanzas)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado