CITIC Securities: A próxima geração do novo modelo DeepSeek deve continuar na linha de modelos de código aberto de alto desempenho e bom custo-benefício

robot
Geração de resumo em curso

O relatório de pesquisa do CITIC Securities afirma que, desde 2026, os fornecedores de modelos de grande dimensão nacionais têm-se concentrado na melhoria das capacidades de Agent e de código, lançando em simultâneo novos modelos. Espera-se que o próximo modelo de nova geração da DeepSeek, que está prestes a ser lançado, dê continuidade à linha de modelos open source com elevada relação custo-benefício, alcançando capacidades mais fortes de memória e processamento de contextos ultra longos, melhorando simultaneamente as capacidades de código e de Agent e colmatando as fragilidades em multimodalidade, criando novas oportunidades de investimento nos domínios de fabricantes de modelos, aplicações de IA e infraestruturas de base de IA.

1、Fabricantes de modelos: espera-se que o novo modelo de geração da DeepSeek avance em conjunto com outros modelos nacionais, impulsionando a aceleração da IA chinesa rumo ao resto do mundo; ao mesmo tempo, a formação do modelo progride um passo para reduzir custos, e tokens mais baratos impulsionam, no conjunto, o aumento da procura global por chamadas à API de modelos de grande dimensão. 2、Aplicações de IA: a igualdade de acesso aos modelos ajuda a aliviar a ansiedade do mercado causada pela narrativa de conflitos entre modelos e aplicações, apoiando a implementação de AI Agents em centenas de sectores, o que é favorável às empresas de aplicações de IA com barreiras; 3、Infraestrutura de IA: a redução de custos traz crescimento do volume de utilização e faz com que a AI Infra beneficie, com a AI Infra nacional e os modelos nacionais a caminharem na mesma direcção.

O texto completo é o seguinte

Computadores|DeepSeek: Perspectivas para a próxima geração de modelos

Desde 2026, os fornecedores de modelos de grande dimensão nacionais têm-se concentrado na melhoria das capacidades de Agent e de código, lançando em simultâneo novos modelos. Consideramos que o novo modelo de geração da DeepSeek, prestes a ser lançado, tem potencial para dar continuidade à linha de modelos open source com elevada relação custo-benefício, alcançando capacidades mais fortes de memória e processamento de contextos ultra longos; ao mesmo tempo que melhora as capacidades de código e de Agent, colmata as fragilidades em multimodalidade, trazendo novas oportunidades de investimento no fabricante de modelos, aplicações de IA e infraestruturas de base de IA.

Código, Agent e multimodalidade nativa: a direcção de evolução dos modelos globais de grande dimensão.

No domínio de programação por IA, a evolução das estruturas de treino, a adopção de repositórios completos de código e trajectórias de engenharia como dados de treino, e a introdução de uma cadeia de raciocínio mais profunda com execução multi-etapa e auto-reparação, criaram um salto do Coding por IA de ferramentas de preenchimento de código para agentes inteligentes autónomos ao nível de projecto. O Harness Engineer tem potencial para fazer com que os profissionais passem de engenheiros de código para gestores de Agents que fazem a IA atingir o máximo de eficácia. No domínio de clusters de multi-Agents, o produto ao nível de fenómeno OpenClaw demonstra plenamente o potencial dos sistemas multi-Agents; a Zhipu, MiniMax, Tencent, Kimi e outros fornecedores nacionais lançaram produtos “semelhantes a lagostas”, libertando a produtividade dos funcionários digitais. No domínio de multimodalidade nativa, a arquitectura de multimodalidade nativa já se tornou uma tendência principal; a codificação híbrida com embeddings foi ultrapassando rapidamente barreiras, mas os modelos nacionais ainda precisam de breakthroughs em etapas-chave como interacção em tempo real com áudio/vídeo e inferência contínua entre modalidades.

▍ Modelos de grande dimensão nacionais: iteração e actualização intensivas, com avanços contínuos de capacidades.

1)MiniMax: as capacidades de código foram进一步 melhoradas; no teste M2.7 SWE-Pro obteve 56.22%, ultrapassando o Gemini 3.1 Pro; no cenário de entrega de projecto completo ponta-a-ponta, o teste VIBE-Pro obteve 55.6%, equivalendo ao Claude Opus 4.6, aumentando ainda mais a compreensão da lógica de execução dos sistemas de software. Além disso, os modelos da série M2 participaram no treino da M2.7 em cenários como RL, permitindo uma auto-iteração do modelo.

2)Zhipu: o GLM-5 introduz o DSA e uma arquitectura “Slime” desenvolvida internamente, que permite concluir de forma autónoma planeamento e execução de longo alcance agentic, reestruturação do backend e depuração profunda, entre outras tarefas de engenharia de sistemas, com intervenções humanas mínimas; as capacidades em chamadas a ferramentas e execução de tarefas multi-etapa (MCP-Atlas 67.8%), pesquisas em rede e compreensão de informação (Browse Comp 89.7%) aproximam-se ou mesmo excedem o nível dos modelos líderes no exterior.

3)Kimi: o Kimi 2.5 introduziu capacidades visuais para decompor automaticamente a lógica de interacção, reproduzir código; o novo modo de conjunto de Agents foi lançado, e nos testes de aplicações de agentes inteligentes, como HLE-Full, BrowseComp e DeepSearchQA, obteve pontuações para comparação com GPT-5.2, Claude 4.5 Opus e Gemini 3 Pro. A Moonshoot adoptou uma estratégia de redução de preços, com o preço da API a diminuir mais de 30% face à tabela de preços do K2 Turbo.

4)Xiaomi: o Xiaomi MiMo-V2-Pro, nos testes de avaliação de capacidades de chamadas a Agents por modelos como ClawEval e t2-bench, aproxima-se ou até ultrapassa alguns modelos líderes estrangeiros no conjunto das amostras; na sua versão de testes internos iniciais, com o código anónimo de Hunter Alpha, foi disponibilizada no OpenRouter, e durante o período de lançamento esteve vários dias no topo do ranking diário de chamadas. Achamos que a base dos modelos de grande dimensão vai capacitar a Xiaomi em todo o ecossistema “pessoa-carro-casa”, permitindo um salto nas capacidades de IA.

▍ Perspectivas da DeepSeek: dar continuidade à linha de elevada relação custo-benefício, aperfeiçoando capacidades de longos textos, código, Agent e multimodalidade.

A DeepSeek, no DeepSeek V3.2 publicado em Janeiro de 26, adopta uma arquitectura de atenção esparsa (DSA) + especialistas mistos (MoE), alcançando melhoria de eficiência e redução de custos na formação e na inferência. O preço por tokens de entrada/saída diminui 60%/75%, respectivamente, ao mesmo tempo que as pontuações em benchmarks de código e de capacidades multi-Agent aumentam de forma significativa. Combinando a direcção de evolução dos modelos da DeepSeek e o artigo sobre o módulo Engram, em que Liang Wenfeng participou como autor, consideramos que novos modelos de próxima geração como o DeepSeek V4.0 poderão integrar o Engram na arquitectura já madura DSA+MoE: ao implementar armazenamento em camadas para informações-chave e de uso frequente, reduz-se de forma exponencial a carga de cálculo das camadas de atenção na arquitectura Transformer, permitindo assim o processamento de contextos ultra longos; ao melhorar simultaneamente a eficiência do modelo, reforça-se a capacidade de código e de Agent, colmatando as fragilidades da multimodalidade.

▍ Factores de risco:

O desenvolvimento de tecnologias nucleares de IA e a expansão das aplicações não atingem as expectativas; a redução de custos da capacidade de computação não atinge as expectativas; a utilização inadequada de IA causa graves impactos sociais; risco de segurança de dados; risco de segurança da informação; intensificação da concorrência na indústria.

▍ Estratégia de investimento: recomendamos prestar atenção às seguintes três linhas principais.

1)Fabricantes de modelos: espera-se que os novos modelos de nova geração da DeepSeek, em conjunto com outros modelos nacionais, impulsionem a aceleração da IA chinesa rumo ao mundo; ao mesmo tempo, a formação do modelo avança mais um passo na redução de custos, e tokens mais baratos impulsionam, no conjunto, o aumento das chamadas globais à API de modelos de grande dimensão.

2)Aplicações de IA: a igualdade de acesso aos modelos ajuda a aliviar a ansiedade do mercado causada pela narrativa de conflitos entre modelos e aplicações, apoiando a implementação de AI Agents em centenas de sectores, o que é favorável às empresas de aplicações de IA com barreiras;

3)Infraestrutura de IA: a redução de custos traz crescimento no volume de utilização e faz com que a AI Infra beneficie; a AI Infra nacional e os modelos nacionais evoluem na mesma direcção.

(Fonte: Primeira Finança)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar