DeepSeek-V4 inaugurou um mecanismo de atenção totalmente novo, que realiza compressão no nível de tokens, combinando com a atenção esparsa DSA (DeepSeek Sparse Attention), alcançando uma capacidade de contexto longo líder mundial, além de reduzir significativamente a demanda por cálculo e memória de vídeo em comparação com métodos tradicionais.

Não subestime, o DeepSeek-V4 reduziu drasticamente a necessidade de cálculo e memória de vídeo.

Acreditamos que isso irá enfraquecer diretamente a vantagem das GPUs da Nvidia. É importante notar que o DeepSeek-V4 também prioriza a compatibilidade com fabricantes de chips nacionais.

Em outras palavras, não exagere na proteção da Nvidia, nem subestime a revolução arquitetural que o DeepSeek está promovendo. O ponto-chave não é “quem substitui quem”, mas sim a redistribuição de lucros na cadeia da indústria de IA, os caminhos de implantação e a lógica de investimento, que podem estar mudando.

Dançando com “correntes”

Nos últimos dois anos, os grandes modelos de IA focaram principalmente no treinamento, competindo por poder de processamento.

Em certa medida, a competição por grandes modelos de IA básicos é, essencialmente, uma disputa pela infraestrutura de GPU. Quem consegue adquirir mais GPUs de alta qualidade, montar clusters maiores, tem mais chances de criar modelos básicos mais poderosos.

No entanto, devido às restrições de exportação dos EUA, a venda de chips de ponta como H100/H200 para a China foi proibida. Além disso, processos avançados da TSMC já estão bloqueados pelos EUA, e as GPUs nacionais ainda têm uma diferença significativa em relação às da Nvidia.

“Os fabricantes de GPUs domésticos estão competindo com a Nvidia com ‘correntes’”, descreveu uma fonte de uma empresa de GPUs para a Miaotu.

Curiosamente, mesmo com esse cenário desfavorável, a diferença entre os grandes modelos da China e dos EUA começou a diminuir nos últimos dois anos, chegando até a quase se igualar.

No final de 2023, a diferença de desempenho entre os principais modelos da China e dos EUA ainda variava entre 20% e 30%. Em 14 de abril, o laboratório HAI da Universidade de Stanford publicou o Relatório de Índice de IA 2026, um documento de 423 páginas considerado uma referência na indústria, mostrando que a disparidade de desempenho entre os grandes modelos da China e dos EUA foi reduzida para 2,7%, atingindo uma quase paridade tecnológica.

Acreditamos que, se considerarmos a diferença de desempenho dos grandes modelos de IA China-EUA como um resultado, então a GPU da Nvidia não é o fator decisivo.

Isso se deve, em parte, ao crescimento de chips nacionais e à infraestrutura elétrica robusta na China.

Huang Renxun, em uma entrevista recente, afirmou: “A IA é essencialmente um problema de computação paralela. A China pode compensar a diferença de processo de fabricação de uma única peça de chip empilhando mais chips. Temos tanta energia que, se quisermos, podemos montar mais chips juntos, mesmo com processos atrasados por alguns nanômetros.”

Na prática, várias fabricantes domésticas de GPUs já criaram clusters de dezenas de milhares de GPUs para compensar a limitação de desempenho de uma única unidade. Como exemplos, temos o cluster de dezenas de milhares de GPUs da Moore com a Quwa, e o cluster SADA da Muxi com o Xiyuan.

Por outro lado, o destaque vai para empresas de grandes modelos, como o DeepSeek.

O DeepSeek utiliza um design avançado de software, adaptando-se proativamente ao hardware nacional para facilitar o caminho para chips domésticos.

Por exemplo: o DeepSeek-V3 validou a viabilidade do FP8 no treinamento de modelos em larga escala, ampliando a escala de treinamento sem custos adicionais e sem comprometer a qualidade do modelo.

Para ilustrar, no passado, realizar uma tarefa complexa de cálculo de IA exigia várias máquinas alemãs de alta precisão e caro (representando as GPUs de alta precisão da Nvidia). Agora, o DeepSeek, ao alterar o fluxo de processamento (ou seja, o formato dos dados), permite que essa tarefa seja concluída de forma eficiente por dezenas de máquinas domésticas menores, simples e baratas (representando unidades de cálculo de GPUs nacionais).

Mesmo assim, as GPUs da Nvidia ainda lideram na fase de treinamento de grandes modelos internacionais.

Por outro lado, do ponto de vista da evolução da indústria, o treinamento de grandes modelos é apenas a primeira fase. Após a criação do modelo, o que realmente determina a velocidade de comercialização e a penetração na indústria é a inferência, especialmente após o sucesso de agentes como o Openclaw e o Hermes.

A Nvidia venceu na fase de treinamento, mas a inferência está apenas começando

Treinamento e inferência são modos diferentes.

A explosão de agentes do tipo Claw, com sua capacidade de memória de contexto longo, é o principal catalisador.

Antigamente, a IA só conversava e esquecia logo depois, com memória de peixe; agora, o Claw consegue lembrar de tudo, continuar trabalhando, aprender com o uso, transformando-se de um “brinquedo” em uma “ferramenta”.

À medida que o contexto fica mais longo, a memória do agente mais profunda e as chamadas a ferramentas mais frequentes, a memória cache KV (cache de memória) na GPU pode ser sobrecarregada, prejudicando a qualidade da inferência de grandes modelos.

Portanto, o primeiro gargalo na explosão da inferência não é a capacidade de cálculo, mas a “memória” e o “cálculo” competindo pelo mesmo espaço de memória.

Para as GPUs domésticas, a capacidade de cálculo (TFLOPS de pico) não é o maior obstáculo; o que importa é a memória. E as GPUs da Nvidia possuem uma vantagem de 1-2 gerações em tecnologia de memória.

As GPUs de data center da Nvidia (como A100 e H100) geralmente vêm com 80GB de memória por placa, enquanto a mais recente Rubin GPU possui 8 chips de memória HBM4 de 36GB (total de 288GB), com uma largura de banda de memória de 13 TB/s.

As chips domésticas, limitadas por processos avançados, têm menor capacidade e largura de banda de memória, ainda precisando de avanços. Por exemplo, a Ascend 910B tem 64GB de memória.

De acordo com um artigo publicado anteriormente por Liang Wenfeng, o DeepSeek-V4 deve usar uma arquitetura única chamada Engram, que justamente resolve o gargalo de capacidade de memória.

A abordagem do DeepSeek-V4 é extrair o conhecimento “memorístico” estático do modelo e armazená-lo em uma grande tabela de memória; na inferência, o CPU faz a “consulta” (recupera o conhecimento), enquanto a GPU realiza apenas o “pensamento lógico” (cálculo de inferência).

Essas tarefas são executadas de forma totalmente sobreposta. Quando a GPU calcula o próximo token, o CPU já trouxe o conhecimento necessário para esse token. Como a latência é completamente mascarada por essa arquitetura paralela, a eficiência de produção do AI por unidade de tempo aumenta geometricamente, e a memória da GPU não é mais sobrecarregada pelo cache KV.

Por exemplo: uma tarefa de inferência de contexto longo que normalmente requer 80GB de memória pode, sob a arquitetura Engram, precisar apenas de 8GB.

Isso significa que, mesmo com memória limitada, as GPUs domésticas podem realizar tarefas equivalentes às internacionais, enquanto a escassez de HBM da Nvidia começa a desmoronar. Além disso, o CPU também terá uma explosão de desempenho.

Além disso, é importante destacar que o DeepSeek-V4 será lançado em breve, e desta vez não foi concedido acesso antecipado às GPUs da Nvidia, como de costume na indústria. Em vez disso, a oportunidade de adaptação antecipada foi dada à Huawei e à Cambricon, com o objetivo de migrar o ecossistema CUDA para a estrutura CANN da Huawei.

Embora o ecossistema CUDA da Nvidia não seja facilmente substituído no curto prazo, já há fissuras. Isso significa que o DeepSeek, seja na comunidade de código aberto ou na autonomia doméstica, ainda mantém uma posição forte.

Segundo relatos da mídia, para atender à demanda de serviços de nuvem baseados nesse modelo, gigantes de tecnologia como Alibaba, ByteDance e Tencent já fizeram pedidos antecipados de chips de IA de nova geração da Huawei, totalizando dezenas de milhares de unidades.

Previsivelmente, o DeepSeek-V4 que será lançado também trará novas expectativas de investimento em IA.

Novas expectativas de investimento

Do ponto de vista de investimento, acreditamos que o DeepSeek-V4 beneficiará diretamente duas áreas principais: capacidade de processamento doméstica e aplicações de IA.

1. Capacidade de processamento doméstica

Se o DeepSeek-V4 for confirmado como treinado inteiramente com capacidade de processamento nacional, será um “momento DeepSeek” na história dos chips domésticos. Isso provará que, mesmo sem H100, podemos treinar modelos de nível mundial.

Essa mudança marginal é extremamente significativa. Não é menor do que o feito do Google ao treinar o Gemini com seu chip TPU próprio. Vale lembrar que o Google já é uma das maiores posições na Berkshire Hathaway de Warren Buffett.

Até agora, as expectativas do mercado para a capacidade de processamento doméstica estavam centradas na narrativa de “autonomia e controle”, mas o V4 leva essa lógica para uma perspectiva de “eficaz e indispensável” para negócios.

Quem mais se beneficiará são os fabricantes domésticos de GPUs. Huawei e Cambricon já deixaram claro. Outros fabricantes também irão adaptar ativamente seus grandes modelos ao DeepSeek. Com base na certeza, os principais beneficiários serão as empresas de chips domésticos, servidores nacionais e fornecedores relacionados, como Huawei, Cambricon, e outros.

Para 2026, a expectativa do Wind, uma das principais plataformas de análise de mercado, é que empresas como Cambricon, Bairen Technology e Tianshu Zhixin tenham um crescimento de receita de aproximadamente 120%, atingindo cerca de 25,7 bilhões de RMB.

Além disso, do ponto de vista de resiliência, a Muxi prevê que, até 2026, a empresa se torne lucrativa, podendo ser uma das próximas fabricantes de GPUs a alcançar o lucro, após a Cambricon, fechando o ciclo de negócios.

Portanto, a capacidade de processamento doméstica continuará sendo uma prioridade de investimento em IA.

2. Aplicações de IA

Além de atender às demandas de inferência com capacidade de processamento doméstico, o DeepSeek-V4 pode reduzir ainda mais os custos de treinamento e inferência por meio de inovações arquiteturais (como mHC e Engram), acelerando o ciclo de inovação na cadeia de valor de IA na China.

Ao mesmo tempo, o DeepSeek deve ajudar empresas globais de grandes modelos de linguagem e aplicações de IA a acelerar sua comercialização, aliviando a crescente pressão de custos de capital.

Com a implementação da arquitetura Engram, a demanda por memória de vídeo na GPU será reduzida em 90%, e os custos de hardware para inferência serão significativamente comprimidos. Isso é uma grande vantagem para implantação em terminais (IA de borda).

Além disso, desde janeiro deste ano, o setor de aplicações de IA na A-share tem apresentado desempenho fraco, com o principal problema sendo o medo de que “grandes modelos consumam toda a software”. A fase atual de IA é marcada por uma lógica de “eliminação”.

No entanto, o lançamento do DeepSeekV4 pode melhorar esse sentimento. Para as empresas de aplicações domésticas na A-share, grandes modelos de IA são mais como uma infraestrutura barata, ajudando a otimizar custos.

Acreditamos que empresas de aplicações de IA, especialmente aquelas fortemente vinculadas a dados essenciais, bem como fornecedores de serviços em nuvem relacionados, também poderão experimentar melhorias marginais.

Resumo

A Nvidia continua sendo a infraestrutura mais forte para treinar grandes modelos, sem dúvida. A curto prazo, sua vantagem em GPUs de alta ponta, ecossistema CUDA e capacidade de clusters ainda é difícil de ser substituída.

Por outro lado, não se pode ignorar que a vantagem da Nvidia está sendo gradualmente desfeita por uma “curva de recuperação” do DeepSeek.

O DeepSeek-V4, ao priorizar a compatibilidade com chips nacionais e a inovação, tenta provar que a inferência de IA não precisa depender apenas das GPUs mais caras. Otimizações de sistema, colaboração entre hardware e software, e implantação local também podem abrir novos caminhos. E os chips nacionais podem avançar ainda mais.

Não exagere na avaliação da Nvidia, nem subestime o DeepSeek e a capacidade de processamento doméstico.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
180.5K Popularidade
#
CryptoMarketSeesVolatility
243.42K Popularidade
#
IsraelStrikesIranBTCPlunges
32.13K Popularidade
#
rsETHAttackUpdate
80.69K Popularidade
#
US-IranTalksStall
193.44K Popularidade

Fixar

Não superestime a Nvidia, não subestime a DeepSeek

Dançando com “correntes”

A Nvidia venceu na fase de treinamento, mas a inferência está apenas começando

Novas expectativas de investimento

Resumo

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar